X (Twitter)

從71.8% 到82.0%：Browser Agents 一週年，Browser Use 在實現快與省之後，下一站是真正可靠過去一年的核心成就（GPT-4o -> BU 1.0 三大維度大幅提升） 1. 準確性（Accuracy）從最初71.8% 提升到目前82.0%（在標準瀏覽器任務基準上）。這意味著智能體完成複雜網頁互動任務（如購物、填寫表單、資料抓取等）的成功率顯著提高。 2. 速度（Speed）平均單一任務執行時間從123 秒降到33.4 秒，速度提升約4 倍。這得歸功於函式庫的多次重構、提示優化和平行處理改進，讓智慧體在真實瀏覽器環境中行動更快、更有效率。 3. 成本（Cost）每任務平均成本從39.2 美分降到1.9 美分（對簡單瀏覽任務而言，已低於2 美分）。透過更有效率的模型呼叫、減少無效重試、更好的截圖/觀察策略，成本大幅壓縮，使大規模部署成為可能。當前最大瓶頸：可靠性（Reliability）儘管準確性、速度、成本都取得了突破性進展，但作者坦誠指出：可靠性仍是當前最薄弱的環節。具體表現為： · 智能體偶爾會陷入循環、誤解指令或在邊緣案例中失敗； · 失敗時往往不夠「優雅」（不透明、難以診斷）。這也是為什麼當前準確率仍停留在82% 而非95%+ 的原因——距離真正「生產可用」還有差距。 2026 年的明確目標：讓可靠性成為現實團隊宣布：2026年將是「可靠智能體之年」。重點工作方向包括： · 讓智能體在失敗時能夠「透明失敗」（明確告訴使用者為什麼失敗）並提供可診斷的日誌； · 大幅提升模型的置信度校正（confidence calibration），避免智能體在不確定時強行行動； · 最後實現「要嘛成功完成任務，要嘛清楚說明做不到」。長遠願景：讓瀏覽器自動化像電力一樣普遍，讓人類徹底擺脫重複性網頁操作工作（填表、比價、監控、資料收集等）。

来自 meng shao（@shao__meng）的推文线程

作者信息

线程正文