阿里最新放出了一個用於理解和操作GUI的GUI Grounding模型:UI-Ins,在5個基準上刷出新SOTA,安卓任務成功率74.1% 主打一個“把一句話變成屏幕上的準確點擊”,指令即推理,它把一句話拆成多條思維鏈,然後挑最靠譜的那條去點屏幕 有泛化推理能力,能組合出訓練時沒有明確教過的新推理角度 有7B、32B兩版 UI-Ins的7B在AndroidWorld端到端任務成功率74.1%,比Gemini 2.5 Computer Use的69.7 %高出4點 UI-Ins-32B在UI-I2E-Bench上達到了87.3%的準確性,在ScreenSpot-Pro上達到了57.0%,在MMBench-GUI L2上達到了84.9% #大模型#UIIns
模型7B:modelscope.cn/models/Tongyi-… 32B:modelscope.cn/models/Tongyi-…

