Alibaba の Tongyi Labs は、UI 要素を認識するための 2 つのモデル、UI-Ins-7B/32B をリリースしました。 モデル自体がUIを自動操作し、Gemini 2.5 Computer Use(AndroidWorldテスト)よりも高いスコアを獲得しました。しかし、注目すべきはその改善方法にあります… 彼らはオープンソースのGUIベンチマークデータセット(OS-Atlas、AMEX)を多数スキャンし、エラー率が23.3%とほぼ4分の1であることを発見しました…AIどころか、人間でさえこれを見たら首をかしげてしまうでしょう。リンゴは丸いと言ったかと思うと、次の瞬間には四角いと言うなんて、誰だってイライラするでしょう(笑)。 残りの学習にも強化学習とGRPOが使用されました。MMBench-GUI L2の高レベルサブセット(暗黙的な意図を必要とするタスク)における最終テスト結果では、UI-Ins-7BモデルがQwen2.5-VL-7Bを159%上回る性能を示しました。UI認識を行う必要がある方は、この新しいモデルをぜひお試しください。 モデル:
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
