X (Twitter)

Alibaba の Tongyi Labs は、UI 要素を認識するための 2 つのモデル、UI-Ins-7B/32B をリリースしました。モデル自体がUIを自動操作し、Gemini 2.5 Computer Use（AndroidWorldテスト）よりも高いスコアを獲得しました。しかし、注目すべきはその改善方法にあります… 彼らはオープンソースのGUIベンチマークデータセット（OS-Atlas、AMEX）を多数スキャンし、エラー率が23.3%とほぼ4分の1であることを発見しました…AIどころか、人間でさえこれを見たら首をかしげてしまうでしょう。リンゴは丸いと言ったかと思うと、次の瞬間には四角いと言うなんて、誰だってイライラするでしょう（笑）。残りの学習にも強化学習とGRPOが使用されました。MMBench-GUI L2の高レベルサブセット（暗黙的な意図を必要とするタスク）における最終テスト結果では、UI-Ins-7BモデルがQwen2.5-VL-7Bを159%上回る性能を示しました。UI認識を行う必要がある方は、この新しいモデルをぜひお試しください。モデル：

karminski-牙医（@karminski3）のスレッド

作者情報

スレッド内容