Alibaba lanzó recientemente UI-Ins, un modelo de interfaz gráfica de usuario (GUI) para comprender y manipular interfaces gráficas de usuario. Ha alcanzado un rendimiento de última generación (SOTA) en cinco pruebas de rendimiento, con una tasa de éxito en tareas de Android del 74,1 %. El concepto central es "convertir una frase en un clic preciso en la pantalla". La instrucción se basa en el razonamiento; descompone una frase en múltiples cadenas de pensamiento y luego selecciona la más plausible para hacer clic en la pantalla. Tiene la capacidad de generalizar el razonamiento y puede combinar nuevos enfoques de razonamiento que no se enseñaron explícitamente durante el entrenamiento. Existen dos versiones, 7B y 32B. UI-Ins 7B logró una tasa de éxito de tareas de extremo a extremo del 74,1% en AndroidWorld, 4 puntos porcentuales más que el 69,7% de Gemini 2.5 Computer Use. UI-Ins-32B alcanzó una precisión del 87,3% en UI-I2E-Bench, del 57,0% en ScreenSpot-Pro y del 84,9% en MMBench-GUI L2. #ModeloGrande#InsercionesDeInterfazDeUsuario
Modelmodelscope.cn/models/Tongyi-…iQVjgmodelscope.cn/models/Tongyi-…zRZcfQ3T

