X (Twitter)

阿里通義實驗室剛又發了兩個模型，UI-Ins-7B/32B 用來辨識UI 模型本身就是自動操作UI的，分數比Gemini 2.5 Computer Use高(AndroidWorld 測試)，然而亮點在於他們的提升方法上..... 他們掃了一圈開源的GUI 基準數據集（OS-Atlas、AMEX），發現錯誤率23.3%, 快接近1/4了..... 這別說AI了，人看了估計都撓頭，一會說蘋果是圓的，一會說蘋果是方的估計誰誰都不好受擱哈哈哈剩下就是訓練也用了RL 和GRPO，最終測試結果在MMBench-GUI L2 的高級子集（需要隱式意圖的任務）上，UI-Ins-7B 模型的表現比Qwen2.5-VL-7B 高出159%。有需要進行UI辨識的同學可以看看這個新模型。模型：

來自 karminski-牙医（@karminski3）的推文串

作者資訊

推文串內容