阿里通義實驗室剛又發了兩個模型,UI-Ins-7B/32B 用來辨識UI 模型本身就是自動操作UI的,分數比Gemini 2.5 Computer Use高(AndroidWorld 測試),然而亮點在於他們的提升方法上..... 他們掃了一圈開源的GUI 基準數據集(OS-Atlas、AMEX),發現錯誤率23.3%, 快接近1/4了..... 這別說AI了,人看了估計都撓頭,一會說蘋果是圓的,一會說蘋果是方的估計誰誰都不好受擱哈哈哈 剩下就是訓練也用了RL 和GRPO,最終測試結果在MMBench-GUI L2 的高級子集(需要隱式意圖的任務)上,UI-Ins-7B 模型的表現比Qwen2.5-VL-7B 高出159%。有需要進行UI辨識的同學可以看看這個新模型。 模型:
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
