X (Twitter)

Gemini 3.0 Pro와 Claude Opus 4.5가 UI 생성 기능을 계속 업그레이드하고 있는데, 프런트엔드 개발자에게는 미래가 있을까요? 😂 농담이에요 😄 AI 모델은 UI를 생성하는 데 매우 능숙해서 사용자 친화적이지만, 그들이 생성하는 UI가 AI 에이전트에게도 사용자 친화적일까요? 옥스퍼드 대학교, 싱가포르 국립대학교, 마이크로소프트가 공동으로 진행한 최신 연구 "AUI"에서는 컴퓨터 사용 에이전트(CUA)와 코딩 언어 모델을 사용하여 GUI를 자동으로 생성하고 최적화하는 방법을 탐구합니다. 이를 통해 인터페이스를 인간보다는 지능형 에이전트에 더 적합하게 만들 수 있습니다. 프로젝트 배경 및 동기: 기존 GUI는 주로 인간에게 최적화되어 있으며, 심미성, 사용성, 그리고 시각적 매력(애니메이션 및 다채로운 레이아웃 등)을 강조합니다. 이로 인해 CUA는 작동 중에 인간의 행동을 모방해야 하므로 복잡성과 비효율성이 증가합니다. 기능적인 웹사이트를 자동으로 생성하는 프로그래밍 언어 모델의 발전과 함께, AUI 프로젝트는 핵심 질문을 제기합니다. CUA가 코더가 GUI를 자동으로 설계하는 데 도움을 주는 "판단자" 역할을 할 수 있을까요? 이 협업은 인간의 미학보다 작업 효율성을 우선시하는 "에이전트 네이티브" 인터페이스를 구축하는 것을 목표로 합니다. 본 프로젝트는 에이전트 피드백을 통해 디지털 환경의 더욱 안정적이고 효율적인 자동화를 달성하고, 에이전트가 수동적으로 환경에 적응하는 방식에서 능동적으로 환경을 형성하는 방식으로 전환하도록 유도하고자 합니다. 핵심 기여 1. AUI-Gym 벤치마크 플랫폼: 자동화된 GUI 개발 및 테스트를 위해 특별히 설계된 벤치마크로, 앱, 랜딩, 게임, 인터랙티브, 도구, 유틸리티 등 6개 도메인에 걸쳐 52개 애플리케이션을 포괄합니다. 이 프로젝트는 GPT-5를 사용하여 실제 시나리오를 시뮬레이션하는 1,560개의 작업(애플리케이션당 30개)을 생성하고, 인적 검증을 통해 품질을 보장합니다. 이러한 작업은 "Micro Habit Tracker" 애플리케이션에서 습관 생성 및 차트 확인과 같은 기능적 완전성과 상호작용성을 강조합니다. 각 작업에는 JavaScript를 통해 해당 작업이 주어진 인터페이스에서 실행 가능한지 확인하는 규칙 기반 검증기가 탑재되어 있어 인적 개입 없이도 신뢰할 수 있는 평가가 가능합니다. 벤치마크 지표는 다음과 같습니다. • 기능 완전성(FC): 기본적인 사용성 측정 기준으로 인터페이스가 작업을 지원하는지 여부(즉, 기능 검사기가 있는지 여부)를 평가합니다. • CUA 성공률(SR): 항해 작업 중 CUA의 평균 완료율을 평가하여 실제 실행 효율성을 반영합니다. 2. Coder-CUA 협업 프레임워크: 이 프레임워크는 Coder(프로그래밍 언어 모델)를 GUI 초기화 및 반복적 수정을 담당하는 "디자이너"로, CUA는 작업 해결 및 탐색 피드백을 통해 지침을 제공하는 "심판자" 역할을 합니다. 구체적인 워크플로는 다음과 같습니다. Coder는 사용자 쿼리(이름, 목표, 기능, 테마 포함)를 통해 초기 HTML 웹사이트를 생성합니다. • CUA 테스트 웹사이트: 먼저 작업의 해결 가능성을 검증하고(실행 불가능한 작업을 기능적 피드백으로 수집) 그런 다음 탐색을 수행합니다(클릭 및 입력과 같은 원자적 동작을 통해). • 피드백 루프: 해결할 수 없는 작업은 코더가 기능을 개선할 수 있도록 언어 요약으로 요약됩니다. 탐색 경로는 CUA 대시보드를 통해 시각적 피드백으로 압축되어 코더가 레이아웃을 최적화하는 데 도움이 됩니다. 3. CUA 대시보드: CUA의 여러 단계로 이루어진 탐색 내역(스크린샷, 작업, 결과 포함)을 단일 1920×1080 이미지로 압축하는 데 사용됩니다. 주요 상호작용 영역을 적응적으로 잘라냄으로써 작업 목표, 단계, 실패 지점 등 필요한 단서는 유지하면서 시각적 토큰을 평균 76.2% 줄입니다. 이를 통해 피드백을 더 쉽게 해석할 수 있게 되어, 코더는 낮은 대비 또는 복잡한 레이아웃과 같은 문제를 파악하고 스타일 제거, 대비 증가, 구조 단순화와 같은 구체적인 수정 작업을 수행할 수 있습니다. 실험 결과에 따르면 GPT-5와 같은 고급 코더는 시각적으로 매력적인 GUI를 생성할 수 있지만, 초기 기능적 완성도는 낮습니다(많은 작업이 해결 불가능). 이는 실패 피드백을 통해 빠르게 개선될 수 있습니다. CUA 탐색이 주요 병목 현상이며, 기능을 완벽하게 구현하더라도 초기 성공률은 낮습니다. 그러나 협업적 반복 작업(디스타일화, 고대비, 간소화된 레이아웃 등)을 통해 성공률이 크게 향상되어, 에이전트 피드백이 GUI의 견고성과 효율성을 향상시킨다는 것을 보여줍니다. 이 프로젝트는 에이전트가 인간과 유사한 시각적 복잡성보다는 단순하고 기능 지향적인 인터페이스를 선호한다는 점을 강조합니다. 연구 프로젝트 주소

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용