Alibabaは最近、GUIの理解と操作のためのGUIグラウンディングモデル「UI-Ins」をリリースしました。このモデルは、5つのベンチマークで最新のSOTA(最先端技術)パフォーマンスを達成し、Androidタスクの成功率は74.1%に達しました。 核となるコンセプトは「文章を画面上の正確なクリックに変換する」ことです。指示は推論であり、文章を複数の思考の連鎖に分解し、最も妥当性の高いものを選択して画面上でクリックします。 推論を一般化する能力があり、トレーニング中に明示的に教えられなかった新しい推論の角度を組み合わせることができます。 7Bと32Bの2つのバージョンがあります。 UI-Ins の 7B は、AndroidWorld でエンドツーエンドのタスク成功率 74.1% を達成しました。これは、Gemini 2.5 Computer Use の 69.7% よりも 4 パーセント高い数値です。 UI-Ins-32B は、UI-I2E-Bench で 87.3%、ScreenSpot-Pro で 57.0%、MMBench-GUI L2 で 84.9% の精度を達成しました。 #LargeModel#UIIns
モデル 7modelscope.cn/models/Tongyi-…jgt modelscope.cn/models/Tongyi-…cfQ3T

