X (Twitter)

71.8%에서 82.0%로: Browser Agents 창립 1주년. 속도와 비용 효율성을 달성한 Browser Use의 다음 단계는 진정한 안정성입니다. 지난 한 해의 주요 성과(3가지 측면에서 상당한 개선: GPT-4o -> BU 1.0) 1. 정확도 초기 71.8%에서 현재 82.0%로 증가했습니다(표준 브라우저 작업 벤치마크 기준). 이는 지능형 에이전트가 복잡한 웹 페이지 상호작용 작업(쇼핑, 양식 작성, 데이터 스크래핑 등)을 완료하는 데 있어 성공률이 크게 향상되었음을 의미합니다. 2. 속도 단일 작업의 평균 실행 시간은 123초에서 33.4초로 감소하여 속도가 약 4배 증가했습니다. 이는 라이브러리의 여러 리팩토링, 프롬프트 최적화, 병렬 처리 개선 덕분에 가능했으며, 이를 통해 에이전트는 실제 브라우저 환경에서 더 빠르고 효율적으로 작업할 수 있습니다. 3. 비용 작업당 평균 비용은 39.2센트에서 1.9센트로 떨어졌습니다(간단한 검색 작업의 경우 2센트 미만). 더욱 효율적인 모델 호출을 구현하고, 잘못된 재시도를 줄이며, 스크린샷/관찰 전략을 개선함으로써 비용이 크게 절감되고 대규모 배포가 가능해졌습니다. 현재 가장 큰 병목 현상: 신뢰성 정확도, 속도, 비용 측면에서 획기적인 발전이 있었음에도 불구하고, 저자들은 신뢰성이 여전히 가장 약한 고리라고 솔직하게 지적합니다. 구체적으로 이는 다음과 같이 나타납니다. • 에이전트는 가끔 루프에 갇히거나, 지시를 오해하거나, 예외적인 상황에서 실패할 수 있습니다. 실패는 종종 "우아하지 않은"(불투명하고 진단하기 어려운) 경우가 많습니다. 이것이 현재 정확도가 95% 이상이 아닌 82%에 머물러 있는 이유입니다. 아직은 진정한 의미에서 "생산에 투입할 수 있는 수준"과는 거리가 멉니다. 이 팀은 2026년을 "신뢰할 수 있는 에이전트의 해"로 지정하고, 2026년의 명확한 목표는 신뢰성을 현실로 만드는 것이라고 발표했습니다. 주요 업무 분야는 다음과 같습니다. • 지능형 에이전트가 "투명하게 실패"(사용자에게 실패 이유를 명시적으로 알림)할 수 있도록 하고 실패 시 진단 로그를 제공합니다. • 모델 신뢰도 보정을 크게 개선하여 불확실한 상황에서 에이전트가 강제로 작업을 수행하는 것을 방지합니다. 궁극적으로 목표는 작업을 성공적으로 완료하거나 작업을 수행할 수 없는 이유를 명확하게 설명하는 것입니다. 장기 비전: 브라우저 자동화를 전기처럼 보편화하여 사람들이 반복적인 웹 페이지 작업(양식 작성, 가격 비교, 모니터링, 데이터 수집 등)에서 벗어날 수 있도록 합니다.

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용