從71.8% 到82.0%:Browser Agents 一週年,Browser Use 在實現快與省之後,下一站是真正可靠 過去一年的核心成就(GPT-4o -> BU 1.0 三大維度大幅提升) 1. 準確性(Accuracy) 從最初71.8% 提升到目前82.0%(在標準瀏覽器任務基準上)。 這意味著智能體完成複雜網頁互動任務(如購物、填寫表單、資料抓取等)的成功率顯著提高。 2. 速度(Speed) 平均單一任務執行時間從123 秒降到33.4 秒,速度提升約4 倍。 這得歸功於函式庫的多次重構、提示優化和平行處理改進,讓智慧體在真實瀏覽器環境中行動更快、更有效率。 3. 成本(Cost) 每任務平均成本從39.2 美分降到1.9 美分(對簡單瀏覽任務而言,已低於2 美分)。 透過更有效率的模型呼叫、減少無效重試、更好的截圖/觀察策略,成本大幅壓縮,使大規模部署成為可能。 當前最大瓶頸:可靠性(Reliability) 儘管準確性、速度、成本都取得了突破性進展,但作者坦誠指出:可靠性仍是當前最薄弱的環節。 具體表現為: · 智能體偶爾會陷入循環、誤解指令或在邊緣案例中失敗; · 失敗時往往不夠「優雅」(不透明、難以診斷)。 這也是為什麼當前準確率仍停留在82% 而非95%+ 的原因——距離真正「生產可用」還有差距。 2026 年的明確目標:讓可靠性成為現實團隊宣布:2026年將是「可靠智能體之年」。 重點工作方向包括: · 讓智能體在失敗時能夠「透明失敗」(明確告訴使用者為什麼失敗)並提供可診斷的日誌; · 大幅提升模型的置信度校正(confidence calibration),避免智能體在不確定時強行行動; · 最後實現「要嘛成功完成任務,要嘛清楚說明做不到」。 長遠願景:讓瀏覽器自動化像電力一樣普遍,讓人類徹底擺脫重複性網頁操作工作(填表、比價、監控、資料收集等)。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
