X (Twitter)

Les laboratoires Tongyi d'Alibaba viennent de publier deux nouveaux modèles, UI-Ins-7B/32B, pour la reconnaissance des éléments d'interface utilisateur. Le modèle gère automatiquement l'interface utilisateur et obtient un score supérieur à celui de Gemini 2.5 (test AndroidWorld). Cependant, son principal atout réside dans ses méthodes d'amélioration… Ils ont analysé plusieurs jeux de données de référence open source pour interfaces graphiques (OS-Atlas, AMEX) et ont constaté un taux d'erreur de 23,3 %, soit près d'un quart… Sans parler de l'IA, même un humain serait perplexe face à un tel résultat. Dire une minute que la pomme est ronde, la minute suivante qu'elle est carrée : de quoi être frustré ! Le reste de l'entraînement a également utilisé le RL et le GRPO. Les résultats des tests finaux sur le sous-ensemble de haut niveau de MMBench-GUI L2 (tâches nécessitant une intention implicite) ont montré que le modèle UI-Ins-7B surpassait Qwen2.5-VL-7B de 159 %. Ceux qui ont besoin d'effectuer de la reconnaissance d'interface utilisateur peuvent s'intéresser à ce nouveau modèle. Modèle:

Fil de karminski-牙医 (@karminski3)

Informations sur l'auteur

Contenu du fil