X (Twitter)

GitHub Copilot が「簡素化されたツールセット」を通じてどのようにスマートになるか開発者にとってよくある悩みの種は、ツールが多すぎると応答時間が遅くなり、意思決定が非効率になることです。「仮想ツール」、組み込みガイドルーティング、アダプティブクラスタリングといった革新的な技術を導入することで、Github Copilotのエージェントは強力な機能を維持しながら、速度と精度を大幅に向上させることができます。コアコンセプト: 少ないほど良い。インテリジェントエージェントには洗練されたツールが必要です。 GitHub Copilot Chatは、バグ修正やコードのマージといったタスクの完了において開発者を支援するため、数百ものツール（コードベース分析やAzureサービスコールなど）を活用しています。これらのツールはMCPを介してアクセスされますが、ツールが多すぎるとエージェントに過負荷がかかるという問題があります。これは、脳が無関係な情報に圧倒されるのと同じような状況で、推論速度の低下やエラー率の増加につながります。ベンチマークテスト（SWE-LancerやSWEbench-Verifiedなど）では、ツールセットをフル装備した場合、エージェントのタスク成功率が実際には2～5パーセントポイント低下することが示されています。これは、モデルがツールを誤用したり、重要な指示を無視したりする傾向があるためです。このソリューションの核心は、「より少ないツールでよりスマートになる」ことです。単に機能を削減するのではなく、インテリジェントなルーティングとグループ化を活用することで、エージェントが必要な時にのみ適切なツールを呼び出すことを可能にします。これは、引き出しのように雑然とした工具箱を管理するようなものです。まずカタログを見て、それから特定のツールを取り出すことで、盲目的な検索を回避します。技術的な実装: 組み込みのガイダンスと動的な選択更新により、正確で効率的なツール選択を保証する 2 つの重要なメカニズムが導入されました。 • 埋め込み誘導ツールルーティング：この手法は、クエリのベクトル埋め込みとツールのセマンティック表現を照合することで、最も関連性の高いツール候補を事前選択します。これは、従来のLLMの段階的な評価よりも大幅に高速です。ベンチマークテストでは、この手法はツール使用率94.5%を達成し、LLM選択の87.5%や静的リストの69.0%をはるかに上回りました。例えば、「このバグを修正して開発ブランチにマージする」というクエリの場合、システムは「マージツール」を埋め込み空間から直接ロックし、無関係な検索ツールやドキュメントツールをスキップして探索的な呼び出しを削減します。 • 適応型ツールクラスタリング：Copilotの内部埋め込みモデルに基づき、コサイン類似度を用いて類似ツールを自動的にグループ化し、「仮想ツール」を作成します。これらの仮想ツールは、カタログのように完全なリストではなく概要を提供します。クラスタリング後、小規模なモデルが各グループのサマリーを生成し、キャッシュと高速アクセスを促進します。ブログでは、GitHub MCPツールの埋め込み図を示しています。create_pending_pull_request_reviewやget_issue_commentsなどのツールは、自然にクラスタリングされます。さらに、GitHubはデフォルトで40個あった組み込みツールを13個のコアツール（リポジトリ解析、ファイル編集、検索、ターミナル操作を網羅）に集約し、残りの非コアツールはJupyter Notebookツール、ネットワークインタラクションツール、VS Codeワークスペースツール、テストツールの4つの仮想カテゴリに分類しました。この「ロスレス動的選択」により、機能の整合性を確保しながら、最初のトークン生成時間を190ミリ秒短縮し、最終的には平均応答レイテンシを400ミリ秒短縮しました。メリット：より高速で正確なユーザーエクスペリエンス。パフォーマンスの飛躍的向上：オンラインA/Bテストでは、タスク成功率が2～5パーセントポイント向上し、ツールカバレッジが27.5%増加しました。インテリジェントエージェントは推論により集中的に取り組み、キャッシュミスやAPIクォータの問題を軽減します。 • 効率の最適化: 運用コストが削減され (キャッシュの埋め込みとダイジェストが安価になります)、開発者はよりスムーズなインタラクションを体験でき、「読み込み」ループを待つ必要がなくなります。 • 実際の例: 複雑なクエリを処理する場合、システムは履歴コンテキストから意図を推測できるため、ツールキットを 1 つずつチェックする必要がなくなり、全体的な信頼性が向上します。将来展望：ロングコンテキストエージェントへの進化。ツール選択は「ロングコンテキスト推論」の前段階と考えられています。将来的には、エージェントはツールの使用履歴を記憶し、対話から意図を推測し、複数段階のアクションを計画し、さらには会話間で協調することさえできるようになります。埋め込み、記憶メカニズム、強化学習を組み合わせることで、Copilotは数千ものインタラクションに対応し、ツールの使用に関する動的な学習をサポートできる可能性があります。このアップデートは、AI開発ツールの進化するトレンド、「オールラウンダー」から「フォーカス型」へと反映されています。GitHubはデータドリブンな最適化を通じて、簡素化は妥協ではなく、より強力なインテリジェンスへの近道であることを証明しています。ブログアドレス:

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容