알리바바는 최근 GUI를 이해하고 조작하기 위한 GUI 기반 모델인 UI-Ins를 출시했습니다. UI-Ins는 5가지 벤치마크에서 74.1%의 안드로이드 작업 성공률을 기록하며 최첨단(SOTA) 성능을 달성했습니다. 핵심 개념은 "문장을 화면에서 정확한 클릭으로 바꾸는 것"입니다. 지시는 추론입니다. 즉, 문장을 여러 개의 생각 사슬로 분해한 다음, 가장 그럴듯한 문장을 선택하여 화면에서 클릭합니다. 추론을 일반화하는 능력이 있으며 훈련 중에 명확하게 가르치지 않은 새로운 추론 각도를 결합할 수 있습니다. 7B와 32B 두 가지 버전이 있습니다. UI-Ins의 7B는 AndroidWorld에서 종단 간 작업 성공률 74.1%를 달성했는데, 이는 Gemini 2.5 Computer Use의 69.7%보다 4%포인트 높은 수치입니다. UI-Ins-32B는 UI-I2E-Bench에서 87.3%, ScreenSpot-Pro에서 57.0%, MMBench-GUI L2에서 84.9%의 정확도를 달성했습니다. #대형모델#UIIns
모델 7Bmodelscope.cn/models/Tongyi-…gt 3modelscope.cn/models/Tongyi-…fQ3T

