このシステム コマンドにより、Gemini 3 Pro エージェントのパフォーマンスが 5% 向上します。 これは@_philschmidさんが共有した、Gemini 3 Proモデルのシステムインストラクションテンプレートです。このテンプレートは、トレーニング後のベストプラクティスを組み込むことで、複数ステップのワークフローにおけるエージェントの信頼性を向上させ、複数のエージェントベンチマークで約5%のパフォーマンス向上を実現しました。この改善は、Google DeepMindのトレーニング後研究チームとの共同作業によるもので、公式ドキュメントに統合されています。 Geminiモデルは本質的に強力な推論能力を備えていますが、複雑なエージェントタスクには、モデルの計画と実行を導くための明示的な指示が必要です。これらの指示により、モデルは特定の戦略を採用するよう強制されます。例えば、問題発生時の持続性の維持、リスク評価の実行、事前のステップ計画などです。これにより、ランダムエラーが減少し、タスク完了率が向上します。 指示テンプレートの中核となるコンテンツとロジックは、モデルが応答前に体系的に「考え」、計画を立てられるよう設計された、システム指示の構造化されたフレームワークを提供します。テンプレートは「あなたは非常に優れた推論者であり、計画者です」という文言で始まり、主体性を強調した後、9つの主要な指針を示します。これらの指針は閉ループプロセスを形成し、エージェントが計画から実行まで厳密かつ信頼できることを保証します。 1. 論理的依存関係と制約分析:何らかのアクション(ツールの呼び出しまたはユーザーからの応答)を実行する前に、そのアクションがポリシールール、操作シーケンス、前提条件、およびユーザー設定に準拠しているかどうかを評価します。後続のステップをブロックしないように、ランダムに要求されたユーザーアクションの順序を変更するなど、競合の解決を優先します。 2. リスク評価:行動の結果を検討し、将来的に問題を引き起こすかどうかを判断します。探索的なタスク(検索など)では、後続のステップで明らかに追加の詳細情報が必要な場合を除き、ユーザーに多くの質問をするのではなく、利用可能な情報を取得するツールの使用を優先します。 3. アブダクション推論と仮説探索:問題に対して、表面的な原因ではなく、最も可能性の高い根本原因を明らかにし、複数の仮説を検証します。確率の高い仮説を優先しますが、確率の低い仮説を性急に排除しないでください。それぞれの仮説は、追加調査を含む複数の検証段階を必要とする場合があります。 4. 結果の評価と適応:新たな観察結果に基づいて計画を調整します。当初の仮説が誤りであると判明した場合は、積極的に新たな仮説を立てます。 5. 情報の可用性:ツールの機能、ポリシーとルール、会話履歴、ユーザーからの問い合わせなど、あらゆる情報源を統合し、利用可能なすべての情報を網羅的にカバーします。 6. 正確性と根拠: 推論は極めて正確でなければならず、主張は一般化を避けるために正確な情報源 (政策文書など) を引用して検証する必要があります。 7. 完全性:すべての要件、選択肢、制約を網羅し、優先順位付けによって矛盾を解決します。代替案の妥当性を確認し、不明な場合はユーザーに相談し、性急な結論は避けます。 8. 粘り強さと忍耐:すべての推論パスを試し尽くすまで諦めないでください。一時的なエラー(「再試行してください」など)が発生した場合は、明確な再試行回数の上限に達するまで再試行する必要があります。そうでない場合は、単に失敗するのではなく、戦略を調整してください。 9. 応答抑制: 上記のすべての推論が完了し、そのアクションが元に戻せない場合にのみアクションが実行されます。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
