現在の実験からの疑問:ハーネスのあらゆる重要な側面において「わずかに優れたツール」を執拗に選択することで、コーディングエージェントハーネスをどれだけ優れたものにできるのか エージェントのパフォーマンスを左右する最大の領域はモデルインテリジェンスです(Opus 4.5を参照)。しかし、ハーネスで行うすべてのツールの決定はどうでしょうか。すべてのツールがX%向上した場合、タスクのパフォーマンスはどれだけ向上するでしょうか。 多くのフル機能コーディングエージェントでデフォルトとなっている重要なプリミティブがいくつかあります。 - 優れたローカル検索(例:warpgrep、mgrepなどによる「より優れた」検索の最近の成長) - 優れたウェブ検索。多くの場合、このツール自体がエージェント化されており、ウェブ検索+エージェントのエンドポイントを呼び出してデータをより適切に準備します(例:@p0) - Anthropic のツール検索ツール、コンテキスト編集、より優れた圧縮、および必要に応じてコンテキストをオフロードおよびリロードするためのファイルシステム構成指示など、優れたコンテキスト管理の意見が組み込まれています。 - 計画やレビューなどの一般的なタスクに適したデフォルトのサブエージェント - など 私は次のような未来にとても興奮しています: 1. 優れたベースライン ハーネスは、ビルダーが構築するための配信メカニズムです (Claude Agent SDK やその他のハーネスを考えてみましょう) 2. ビルダーは、ハーネスにプラグインする一連の機能を注入します。私は現在、スキルを配布メカニズムとして非常に有望視しており、スキルに組み込めるツールやMCPも存在します。 3. ビルダーは、ハーネスで公開されているスキル/ツールのセットとうまく連携するようにハーネスプロンプトを最適化します。 4. ビルダーは評価からハーネスを反復的に更新する この世界には次のような価値がたくさんあります: - ハーネスを駆動するモデル - 素晴らしいモデルとハーネスのペアをキュレートしたフルエージェント製品 - ハーネスにプラグインし、その機能が呼び出されるたびに収益を生み出すツール/機能レイヤー
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。