X (Twitter)

AI의 "원클릭 생성" 풀스택 애플리케이션에 대한 궁극적인 테스트인 "앱벤치"에서 오키즈가 1위, 클로드 코드가 2위, 커서가 8위, 러버블이 9위, 제미니 CLI는 0위를 기록했습니다. App-Bench는 매우 명확한 핵심 목표를 가진 정교한 벤치마킹 프레임워크입니다. 그 목표는 바로 AI 프로그래밍 에이전트가 인간의 개입 없이 단 하나의 자연어 입력만으로 완전하고 사용 가능한 최신 웹 애플리케이션을 생성할 수 있는지 여부를 평가하는 것입니다. 핵심 평가 원칙: "코드 작성"에서 "제품 제작"까지 App-Bench는 더 이상 AI가 함수 조각을 작성하는 능력만 테스트하지 않습니다. 이제는 완전한 기능을 갖춘 풀스택 애플리케이션을 구축할 수 있는 전반적인 역량을 검사합니다. 이러한 애플리케이션은 실제 소프트웨어의 핵심 기능을 포함해야 합니다. • 통합 AI 비서 • 실시간 데이터 동기화 • 다중 사용자 역할 로직 • 자동화된 트리거 및 인증 프로세스 실제 경제적 가치를 시뮬레이션하기 위해 App-Bench는 서로 다른 분야에서 6개의 복잡한 애플리케이션을 선정하여 6가지 까다로운 테스트 시나리오를 적용하여 테스트했습니다. • 금융 대시보드: 블룸버그 터미널과 유사하게 실시간 주가, 대화형 차트, AI 기반 분석 및 실시간 포럼을 제공합니다. • 병원 관리 대시보드: 의사, 간호사, 관리자 등 여러 담당자가 사용하며, 병상 현황, 비상 경보 및 실시간 소통을 관리해야 합니다. • 법률 보조 도구: RAG 기반의 문서 라이브러리로, 음성 녹취 및 문서 인용 기능을 지원합니다. • 약국 시스템: 환자와 약사를 연결하고 재고, 주문 및 개인 메시지를 관리합니다. • 픽셔너리 게임: 턴 기반 논리, 실시간 캔버스 동기화 및 리플레이 기능에 대한 솔루션이 필요한 멀티플레이어 온라인 게임입니다. 숙소 예약 플랫폼: 에어비앤비와 유사하게 검색 필터링, 결제 과정 및 미디어 업로드 기능을 제공합니다. 엄격한 채점 방식: 점수는 자동화된 시스템이 아닌, 숙련된 풀스택 개발자가 직접 수동으로 부여합니다. • 척도: 총 151개 항목으로 구성되며, 총 4,530건의 평가가 실시되었습니다. • 작동 방식: 각 도구에는 세 번의 기회가 주어지며, 가장 좋은 결과가 기록됩니다. 주요 결과 및 통찰: 업계 현황: 최고 수준의 도구조차 완벽한 결과를 달성할 수 없습니다. 현재 가장 성능이 뛰어난 도구조차 필수 기능의 약 77%만을 지원하며, 대부분의 도구는 복잡한 작업(예: 다중 역할 상호 작용 및 복잡한 UI 로직) 처리에서 상당한 격차를 보입니다. • 도구 유형 비교: 웹 기반 생성기는 일반적으로 명령줄 도구보다 성능이 우수합니다. 웹 도구는 인증 및 기본 UI 프레임워크 처리에서 더 안정적인 반면, CLI 도구는 성능 변동이 더 큽니다. • 주요 실패 원인: 기능 누락, 다중 역할 프로세스 중단, API 만료로 인한 런타임 오류, 사용성에 영향을 미치는 UI/UX 문제. 성능 순위 (상위 10개) 1. 난초 76.8% 2. 클로드 코드 67.5% 3. v0 (Vercel) 64.9% 4. 볼트 53.6% 5. 구글 AI 스튜디오 50.3% 6. 코덱스 38.4% 7. 35.1% 재분할 8. 커서 27.8% 9. 사랑스러운 25.8% 10. 제미니 CLI 0.0% 웹사이트를 방문하세요

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용