X (Twitter)

A Tongyi Labs, da Alibaba, acaba de lançar mais dois modelos, UI-Ins-7B/32B, para reconhecimento de elementos de interface do usuário. O próprio modelo opera a interface do usuário automaticamente, obtendo uma pontuação superior ao Gemini 2.5 no teste de Uso do Computador (AndroidWorld). No entanto, o destaque reside nos seus métodos de aprimoramento... Eles analisaram vários conjuntos de dados de benchmark de GUI de código aberto (OS-Atlas, AMEX) e encontraram uma taxa de erro de 23,3%, quase um quarto... Imagine então uma IA, até um humano ficaria perplexo ao ver isso. Num minuto dizendo que a maçã é redonda, no minuto seguinte dizendo que é quadrada — isso seria frustrante para qualquer um, haha. O restante do treinamento também utilizou RL e GRPO. Os resultados finais dos testes no subconjunto de alto nível do MMBench-GUI L2 (tarefas que exigem intenção implícita) mostraram que o modelo UI-Ins-7B superou o Qwen2.5-VL-7B em 159%. Quem precisar realizar reconhecimento de interface do usuário pode conferir este novo modelo. Modelo:

Thread de karminski-牙医 (@karminski3)

Informações do autor

Conteúdo da thread