A Alibaba lançou recentemente o UI-Ins, um modelo de interface gráfica para compreender e manipular interfaces gráficas. Ele alcançou um desempenho de última geração em cinco benchmarks, com uma taxa de sucesso de 74,1% em tarefas do Android. O conceito central é "transformar uma frase em um clique preciso na tela". A instrução é o raciocínio; ela decompõe uma frase em múltiplas cadeias de pensamento e, em seguida, seleciona a mais plausível para clicar na tela. Possui a capacidade de generalizar o raciocínio e pode combinar novas perspectivas de raciocínio que não foram explicitamente ensinadas durante o treinamento. Existem duas versões, 7B e 32B. O UI-Ins 7B alcançou uma taxa de sucesso de tarefas de ponta a ponta de 74,1% no AndroidWorld, 4 pontos percentuais acima dos 69,7% do Gemini 2.5 Computer Use. O UI-Ins-32B alcançou 87,3% de precisão no UI-I2E-Bench, 57,0% no ScreenSpot-Pro e 84,9% no MMBench-GUI L2. #ModeloGrande#UIIns
Modelmodelscope.cn/models/Tongyi-…iQVjgmodelscope.cn/models/Tongyi-…zRZcfQ3T

