X (Twitter)

阿里最新放出了一個用於理解和操作GUI的GUI Grounding模型：UI-Ins，在5個基準上刷出新SOTA，安卓任務成功率74.1% 主打一個“把一句話變成屏幕上的準確點擊”，指令即推理，它把一句話拆成多條思維鏈，然後挑最靠譜的那條去點屏幕有泛化推理能力，能組合出訓練時沒有明確教過的新推理角度有7B、32B兩版 UI-Ins的7B在AndroidWorld端到端任務成功率74.1%，比Gemini 2.5 Computer Use的69.7 %高出4點 UI-Ins-32B在UI-I2E-Bench上達到了87.3%的準確性，在ScreenSpot-Pro上達到了57.0%，在MMBench-GUI L2上達到了84.9% #大模型 #UIIns

模型7B：modelscope.cn/models/Tongyi-… 32B：modelscope.cn/models/Tongyi-…

模型7B：https://t.co/UKRgiQVjgt
32B：https://t.co/uOzRZcfQ3T

來自 AIGCLINK（@aigclink）的推文串

作者資訊

推文串內容