meng shao (@shao__meng): 跟顶尖 AI 团队学「上下文工程」通过「信息提纯、状态同步、动态剪裁、性能加速」四种手段打造具备「感知、筛选、精炼与持久化」能力的 AI…

トップAIチームから「コンテキストエンジニアリング」を学ぶ私たちは、「情報の浄化、状態の同期、動的なプルーニング、パフォーマンスの加速」という 4 つの方法を通じて、「認識、フィルタリング、洗練、永続性」の機能を備えた AI エージェントを作成します。 I. 情報の浄化：モデルが高価値な背景信号のみを受信するようにします。コンテキストエンジニアリングでは、信号対雑音比（SNR）がエージェントの推論能力の上限を決定します。モデルが大規模なコードベースや長いドキュメントを扱う場合、単純なRAGベクトルマッチングではもはや十分ではありません。 1. 意味補完 AnthropicとChromaの調査によると、従来の断片的な検索は情報のサイロ化につながることが指摘されています。コンテキストエンジニアリングの核心は「前処理」にあります。これは、モデルを用いて各情報フラグメントを保存する前に、グローバルコンテキストを注入することを意味します。例えば、コードの一部をインデックス化する場合、コンテキストエンジニアリングはプロジェクトのアーキテクチャ情報を強制的に含め、取得したコンテンツが「自己説明的」であることを保証します。 2. 動的並べ替えコンテキストエンジニアリングは、検索結果の元の順位付けを信頼しません。モデルのコンテキストに入る前に、情報が「精製」プロセスを経る必要があることを強調しています。軽量モデルは、取得した上位N件の結果に対して二次評価を行い、現在の指示ロジックに無関係な誤判断要素を排除することで、モデルが長いテキストで迷子になるのを防ぎます。 II. 状態同期：外部実行環境をモデルの認識にリアルタイムでマッピングする。成熟したエージェントは、ダイアログボックス内に存在するだけでは不十分です。コンテキストエンジニアリングの第二の核となるのは、「物理環境」をモデルの認識にリアルタイムでマッピングすることです。 1. リアルタイムシステムイメージ ClineとManusの実践は、コンテキストエンジニアリングでは、ファイルツリー、端末出力、さらには現在のUI状態までもをコンテキストにリアルタイムで組み込む必要があることを示しています。これは、コンテキストがもはや静的なテキストではなく、動的に更新される「ダッシュボード」であることを意味します。モデルが操作を完了した後、環境からのフィードバック（成功、エラー、または出力）は、コンテキストの直後に標準化された形式で返される必要があります。 2. 目標反映とタスクアンカー：長いパスのタスクでは、モデルは「ドリフト」を起こしやすい傾向があります。優れたコンテキストエンジニアリングでは、コンテキストの重要なポイント（ダイアログの終了やシステムプロンプトなど）で、現在のメインゴールを繰り返しアンカーします。「目標反映」と呼ばれるこの手法により、モデルは複雑なサブタスクを処理する際に、常にユーザーの当初の意図を記憶することができます。 3. 動的プルーニング：冗長なメモリをプルーニングすることで長期的な論理コンテキスト空間を維持することはコストが高く、「コンテキスト破損」の問題を引き起こします。対話ラウンドの回数が増えると、初期の無駄な探索情報がその後の意思決定に影響を及ぼす可能性があります。 1. 自動圧縮と状態蒸留アンプコードとクラインは「エントロピー削減」戦略を提唱しています。文脈があらかじめ設定された閾値に近づくと、システムは自動的に「蒸留」メカニズムを起動します。これは、歴史の些細な詳細を論理的に要約し、重要な事実と最終的な結論のみを保持するものです。この手法は、「スライディングサマリー」を通じて、元々長かった文脈を簡潔で記憶に残りやすいポイントへと変換することができます。 2. コンテキストフォークとタスク分離：複雑な問題に対して、コンテキストエンジニアリングは「フォーク」戦略を採用します。メインタスクが独立したサブタスクを生成する際、システムはサブタスク用にクリーンなコンテキスト環境を複製し、必要なグローバル変数のみを保持します。これによりタスク間の分離が実現され、異なる論理スレッドが同じコンテキストウィンドウ内で衝突するのを防ぎます。 IV. パフォーマンスの高速化：キャッシュメカニズムを用いた応答速度とコストのバランス最後に、実行パフォーマンスの問題があります。コンテキストエンジニアリングは、精度だけでなく、速度とコストにも対処します。 1. **キューワードのキャッシュ：** これは、Anthropicなどの企業が最近推進している最も重要なエンジニアリングの進歩です。コンテキストエンジニアリングでは、大量の既存情報（システムプロンプト、プロジェクトのベースコード、よく使用されるライブラリドキュメントなど）が複数のラウンドで繰り返し使用されます。この「プレフィックスコンテンツ」をキャッシュすることで、モデルは新しい入力を処理する際に、繰り返し部分のアテンション重みを再計算する必要がなくなります。これにより、最初の単語生成のレイテンシが大幅に短縮されるだけでなく、推論コストも直接的に削減されます。 2. 最小限のスレッドとキー値キャッシュの再利用マヌス氏と彼のチームは「追加指向」のコンテキストを重視しました。コンテキストの構造を慎重に設計することで、新しいインタラクションは以前のインタラクションへの書き換えではなく、線形追加となります。このエンジニアリングアプローチは、サーバー側のキーバリューキャッシュの再利用を最大限に高め、大規模なコードベースを扱う場合でもエージェントがミリ秒レベルの応答時間を維持できるようにします。要約すると、コンテキストエンジニアリングの最終的な目標は、「知覚、フィルタリング、洗練、永続性」の機能を備えた AI エージェント用の動的メモリシステムを構築することです。浄化は「何を見るべきか」という問題を解決します。 • 「見すぎ」の問題も同時に解決しました。 • ガバナンスアプローチにより、「正確に予測できる」という問題が解決されました。 • 効率性により、「どれだけ早く視聴するか」という問題が解決されます。

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容