X (Twitter)

Tongyi Labs de Alibaba acaba de lanzar dos modelos más, UI-Ins-7B/32B, para el reconocimiento de elementos de interfaz de usuario. El modelo gestiona automáticamente la interfaz de usuario, obteniendo una puntuación superior a la de Gemini 2.5 en la prueba de uso informático de AndroidWorld. Sin embargo, lo más destacable reside en sus métodos de mejora... Analizaron varios conjuntos de datos de referencia de interfaces gráficas de usuario de código abierto (OS-Atlas, AMEX) y encontraron una tasa de error del 23,3 %, casi un cuarto... Ni hablar de la IA, hasta un humano se quedaría perplejo al ver esto. Un minuto dice que la manzana es redonda, al siguiente que es cuadrada; eso sería frustrante para cualquiera, jaja. El entrenamiento restante también empleó RL y GRPO. Los resultados de las pruebas finales en el subconjunto de alto nivel de MMBench-GUI L2 (tareas que requieren intención implícita) mostraron que el modelo UI-Ins-7B superó a Qwen2.5-VL-7B en un 159 %. Quienes necesiten realizar reconocimiento de interfaz de usuario pueden consultar este nuevo modelo. Modelo:

Hilo de karminski-牙医 (@karminski3)

Información del autor

Contenido del hilo