Alibaba a récemment lancé UI-Ins, un modèle d'apprentissage automatique pour la compréhension et la manipulation des interfaces graphiques. Ce modèle a atteint des performances de pointe sur cinq tests de performance, avec un taux de réussite de 74,1 % pour les tâches Android. Le concept de base consiste à « transformer une phrase en un clic précis sur l'écran ». L'instruction repose sur le raisonnement ; elle décompose une phrase en plusieurs chaînes de pensée, puis sélectionne la plus plausible pour effectuer le clic à l'écran. Elle possède la capacité de généraliser le raisonnement et peut combiner de nouveaux angles de raisonnement qui n'ont pas été explicitement enseignés lors de la formation. Il existe deux versions, 7B et 32B. UI-Ins' 7B a atteint un taux de réussite de tâche de bout en bout de 74,1 % sur AndroidWorld, soit 4 points de pourcentage de plus que les 69,7 % de Gemini 2.5 Computer Use. UI-Ins-32B a atteint une précision de 87,3 % sur UI-I2E-Bench, de 57,0 % sur ScreenSpot-Pro et de 84,9 % sur MMBench-GUI L2. #LargeModel#UIIns
Modèlmodelscope.cn/models/Tongyi-…giQVjmodelscope.cn/models/Tongyi-…uOzRZcfQ3T

