X (Twitter)

알리바바의 Tongyi Labs는 UI 요소를 인식하는 두 가지 모델인 UI-Ins-7B/32B를 출시했습니다. 이 모델은 UI를 자동으로 조작하며, Gemini 2.5 Computer Use(AndroidWorld 테스트)보다 높은 점수를 받았습니다. 하지만 가장 큰 장점은 개선 방법에 있습니다... 오픈소스 GUI 벤치마크 데이터셋(OS-Atlas, AMEX)을 여러 개 스캔해 본 결과, 오류율이 23.3%로 거의 4분의 1에 달했습니다. AI는 말할 것도 없고, 사람조차도 이걸 보면 어리둥절할 겁니다. 사과가 둥글다고 했다가 네모라고 한다면, 누구든 답답할 겁니다. 하하. 나머지 훈련에도 RL과 GRPO가 사용되었습니다. MMBench-GUI L2의 상위 하위 집합(암묵적 의도가 필요한 작업)에 대한 최종 테스트 결과, UI-Ins-7B 모델이 Qwen2.5-VL-7B 모델보다 159% 더 우수한 성능을 보였습니다. UI 인식을 수행해야 하는 분들은 이 새로운 모델을 살펴보시기 바랍니다. 모델:

karminski-牙医(@karminski3)의 스레드

작성자 정보

스레드 내용