71.8%から82.0%へ:ブラウザエージェント1周年。速度とコスト効率を実現した後、ブラウザユースの次のステップは真の信頼性です。 過去 1 年間の主な成果 (3 つの側面で大幅な改善: GPT-4o -> BU 1.0) 1. 正確性 当初の 71.8% から現在は 82.0% に増加しました (標準的なブラウザ タスク ベンチマークに基づく)。 これは、複雑な Web ページ対話タスク (ショッピング、フォームへの入力、データ スクレイピングなど) を完了する際のインテリジェント エージェントの成功率が大幅に向上したことを意味します。 2. スピード 単一タスクの平均実行時間は 123 秒から 33.4 秒に短縮され、速度が約 4 倍向上しました。 これは、ライブラリの複数のリファクタリング、プロンプトの最適化、並列処理の改善のおかげで、エージェントが実際のブラウザ環境でより高速かつ効率的に動作できるようになりました。 3. コスト タスクあたりの平均コストは 39.2 セントから 1.9 セント (単純なブラウジング タスクの場合は 2 セント未満) に低下しました。 より効率的なモデル呼び出しを実装し、無効な再試行を減らし、スクリーンショット/観察戦略を改善することで、コストが大幅に削減され、大規模な展開が可能になります。 現時点での最大のボトルネック:信頼性 精度、速度、コストの面で画期的な進歩があったにもかかわらず、信頼性が依然として最も弱い要素であると著者らは率直に指摘しています。 具体的には、次のようになります。 • エージェントがループに陥ったり、指示を誤解したり、エッジケースで失敗したりする場合があります。 失敗は多くの場合「エレガント」ではありません(不透明で診断が難しい)。 このため、現在の精度は 95% 以上ではなく 82% に留まっており、まだ真に「本番環境に対応できる」状態には程遠いと言えます。 チームは、信頼性を現実のものとするという明確な目標を掲げ、2026 年を「信頼できるエージェントの年」とすることを発表した。 主な作業領域は次のとおりです。 • インテリジェント エージェントが「透過的に失敗」 (失敗した理由をユーザーに明示的に伝える) し、失敗したときに診断ログを提供できるようにします。 • モデルの信頼性のキャリブレーションを大幅に改善し、不確実な場合にエージェントが強制的にアクションを起こすことを防ぎます。 最終的な目標は、タスクを正常に完了するか、タスクを実行できない理由を明確に説明することです。 長期的なビジョン: ブラウザの自動化を電気と同じくらい普及させ、人間を Web ページの反復的な操作 (フォームへの入力、価格の比較、監視、データ収集など) から解放します。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
