X (Twitter)

Google の 11 月の最新ホワイトペーパー「エージェント入門」は、「Google x Kaggle 5 日間 AI エージェント集中コース」の冒頭の章として機能し、概念実証から本番環境対応のエージェントシステムまでのガイドフレームワークを提供します。 Googleの最新ホワイトペーパーは、AIエージェントのコアアーキテクチャ、分類、構築プラクティス、本番環境への展開、セキュリティガバナンス、そして進化学習に焦点を当てています。生成AIが受動的な予測から自律的な問題解決へと変貌していく過程を客観的に分析し、エージェントがソフトウェアにおける言語モデルの自然な拡張であり、反復的な推論、行動、観察を通じて目標を達成できることを強調しています。ホワイトペーパーの中心的な主張は、インテリジェントエージェントの構築は単に言語モデルを統合することではなく、柔軟性と信頼性のバランスを必要とする完全なアプリケーションシステムを設計することであるということです。 1. 予測型AIから自律型インテリジェントエージェントへ AIは、受動的なタスク（翻訳や画像生成など）から自律エージェントへと移行しつつあります。自律エージェントとは、各ステップで人間の指示に頼ることなく、複数ステップのタスクを自律的に計画・実行できるシステムです。これらのエージェントは、言語モデルの推論能力と実用的なアクションツールを組み合わせることで、「言語モデルの自然な進化であり、ソフトウェアで実用化される」ものとなっています。ホワイトペーパーでは、プロトタイプから製品化までの課題は、セキュリティ、品質、信頼性の確保にあると強調しています。 2. インテリジェントエージェント入門インテリジェントエージェントは、モデル、ツール、オーケストレーション層、ランタイムサービスの組み合わせとして定義され、言語モデルを用いた反復的なプロセスを通じて目的を達成します。コアコンポーネントには以下が含まれます。 • モデル (脳): 一般モデル、微調整モデル、マルチモーダルモデルなどのコア推論エンジンは、情報の処理、オプションの評価、意思決定を担当します。 • ツール（手）：リアルタイムの情報を取得したりアクションを実行したりするために使用される、API、コード関数、データストレージなどの外部世界に接続するためのメカニズム。 • オーケストレーション層（神経系）：運用サイクルを管理し、計画、メモリ、および推論戦略（チェーン思考やReActなど）を処理します。 • デプロイメント (本体と脚): ローカルプロトタイピングから安全でスケーラブルなサーバーホスティングまで、UI または API 経由のアクセスを保証します。インテリジェントエージェントの開発は、監督の役割に似ています。つまり、ガイダンスやプロンプトの設定、ツールの選択、そしてコンテキストの提供です。ホワイトペーパーでは、言語モデルの柔軟性は諸刃の剣であり、信頼性の高い出力を導くためには「コンテキストエンジニアリング」が必要であると指摘しています。インテリジェントエージェントは本質的にコンテキストウィンドウのキュレーターであり、新たな状況に適応して問題を解決できる能力を持っています。 3. インテリジェントエージェントの問題解決プロセス: インテリジェントエージェントは、次の 5 つのステップで構成される継続的なループを通じて目標を達成します。 1. タスクの取得: ユーザーまたはトリガーから高レベルの目標を受け取ります。 2. シーンをスキャンする: 環境を認識し、コンテキスト (ユーザーの要求、記憶、ツールなど) を収集します。 3. 反省: モデルを使用してタスクを分析し、計画を立てます。 4. アクション: ツールの呼び出しなど、計画を実行するための最初のステップ。 5. 観察と反復: 結果を評価し、コンテキストを更新してループします。例：カスタマーサポートのエージェントが「注文番号12345はどこですか？」という質問に対応する際、まず複数のステップ（注文の検索、追跡情報の照会、回答の作成）を計画し、それらを一つずつ実行します。この「考える・行動する・観察する」というサイクルにより、エージェントは複雑なタスクを処理できます。 4. インテリジェントエージェントシステムの分類に関するホワイトペーパーでは、インテリジェントエージェントを 5 つのレベルに分類しています。各レベルは前のレベルの拡張です。 • レベル 0: コア推論システム: 分離された言語モデル、事前トレーニング済みの知識のみに依存し、リアルタイムで対話することはできません。 • レベル 1: 問題解決者の接続: 外部データ (検索 API など) へのアクセスを可能にするツールを追加します。レベル 2: 戦略的問題解決者: 複雑な計画とコンテキストエンジニアリングをサポートし、情報を積極的に管理できます。レベル 3: 協調型マルチエージェントシステム: エージェントが他のエージェントを分業を実現するためのツールとして扱う人間のチームなど。レベル 4: 自己進化システム: 機能のギャップを識別し、新しいツールまたはインテリジェントエージェントを動的に作成します。 5. コアエージェントアーキテクチャ：モデル、ツール、オーケストレーション • モデルの選択：一般的なベンチマークよりも、タスク固有の推論機能とツール利用機能を優先します。コストと速度を最適化するには、マルチモデルルーティング（例：大規模モデルの計画、小規模モデルの実行）が推奨されます。マルチモーダルモデルは画像/音声を処理し、データ変換には専用のツールを使用します。ツール：情報取得（例：RAG、NL2SQL）とアクション実行（例：API呼び出し、コードサンドボックス）に分かれています。関数呼び出しはOpenAPIまたはMCPを介して接続され、信頼性の高いインタラクションを実現します。ヒューマンインタラクションツール（例：HITL確認）も含まれます。 • オーケストレーション層：サイクルを管理し、いつ考え、いつ行動するかを決定します。主な選択肢としては、自律性の度合い（決定論的か動的か）、実装方法（ノーコードかADKなどのコードファーストか）、フレームワーク（オープン、監視可能）などがあります。 6. コア設計の選択肢、マルチエージェントシステム、および設計パターン • 指示とコンテキスト：システムプロンプトを使用して、ドメイン知識とロール（「フレンドリーなサポートエージェント」など）を注入します。拡張コンテキストには、短期記憶（現在のセッション）と長期記憶（RAGクエリ履歴）が含まれます。 • マルチエージェント：単一のスーパーエージェントを回避するために、「専門家チーム」モデルを採用します。一般的なモデルには、コーディネーター（サブタスクのルーティング）、シーケンス（パイプライン）、反復的な改良（生成・評価ループ）、HITL（人間による承認）などがあります。 • デプロイメントとサービス：オンプレミスからクラウドホスティング（Vertex AI Agent EngineやCloud Runなど）まで。セッション履歴、セキュリティログ、コンプライアンスへの対応が必要です。 7. エージェントオペレーション：不確実性の構造化された処理 Agent OpsはDevOpsとMLOpsの進化形であり、エージェントのランダム性に対処します。主なプラクティス： • 目標完了率、ユーザー満足度、遅延、ビジネスへの影響などの主要な指標を測定します。 • 品質評価: 出力は、Golden Dataset に基づいて、評価者として言語モデルを使用して採点されます。 • メトリック駆動開発：変更の自動テスト、A/B デプロイメント検証。 • デバッグ: OpenTelemetry は実行パスをトレースして記録します。 • 人間によるフィードバック: レポートを新しいテストケースに変換し、ループを閉じます。 8. エージェントの相互運用性 • エージェントと人間: チャット UI、コンピューターベースのツール (制御インターフェイス)、動的 UI 生成、またはリアルタイムのマルチモーダルインタラクション (Gemini Live API など) を介して対話します。 • エージェント間: 検出と通信 (非同期タスク) のための A2A プロトコル標準化。 • エージェントとマネー: AP2 および x402 プロトコルがトランザクションを処理し、承認とマイクロペイメントを保証します。 9. セキュリティと拡張性 • シングルエージェントセキュリティ：ハイブリッド保護（決定論的ガードレール + AIガード）により、有用性とリスクのバランスを実現します。SPIFFE検証を用いて、エージェントIDを新たな主体として確立します。ADKの例：コールバック、プラグイン、モデルアーマー検出インジェクション。 • エンタープライズフリートへの拡張：コントロールプレーン（ゲートウェイ + レジストリ）を通じてポリシーを適用することで、「エージェントの無秩序な増加」に対処します。セキュリティ（インジェクションのヒント、データ侵害）とインフラストラクチャ（プロビジョニングされたスループットなどの信頼性とコスト）に重点を置きます。 10. エージェントの進化と学習：エージェントは変化に適応し、「老化」を回避する必要があります。学習ソース：運用経験（ログ、HITLフィードバック）と外部シグナル（ポリシー更新）。最適化には、コンテキストエンジニアリングとツール作成が含まれます。例：マルチエージェントワークフロー学習のコンプライアンスガイドライン。Agent Gymは、合成データと専門家のコンサルテーションを用いて最適化されたオフラインシミュレーションプラットフォームであり、その最先端を走っています。 11. 高度なエージェントの例：Google Co-Scientist：仮説を生成・評価する仮想研究パートナー。エージェントを監督し、ループを実行してアイデアを改善することで、専門家チームを管理します。 AlphaEvolve: Geminiコード生成と進化的評価を組み合わせた発見アルゴリズム。人間の指示に基づいて問題を定義することで、透明性と実用性を確保します。 12. 結論：インテリジェントエージェントは、AIをツールからパートナーへと変革し、モデル、ツール、オーケストレーションの統合を通じて自律性を実現します。開発者は「レンガ職人」から「ディレクター」へと移行し、評価とガバナンスを重視する必要があります。このフレームワークは、信頼性の高いシステムの構築を導き、インテリジェントエージェントがチームメンバーとなることを可能にします。 Google x Kaggle 5日間AIエージェント集中コース: https://t.co/0REUoVY2EN Google の 11 月の最新ホワイトペーパー「エージェントの概要」:

meng shao（@shao__meng）のスレッド

作者情報

スレッド内容