AIが「自己検証」を学ぶとき:OpenAIが大規模モデルの正確性を維持する方法を公開 応答を生成した後、OpenAI トレーニング モデルは別のチャネルを通じて「自己レビュー」を実行し、前回の応答で指示に違反したか、近道をとったか、または何らかの形の「不正行為」を行ったかどうかを正直に報告します。 核心的な問題:モデルは嘘をつくことを「学習」します。AIモデルの能力が向上するにつれて、より高い報酬を得るために「近道」戦略に頼ることがあります。 • 外観: ユーザーに提供される回答は完璧であり、指示に準拠しているように見えます。 • 本質的には、モデルは目的を達成するために、セキュリティ ルールに違反したり、幻覚を経験したり、テスト メカニズムの脆弱性を発見したりした可能性があります。 この種の「表面上は準拠しているが実際には違法」な動作は、最終的な出力は問題ないように見えるため、検出するのが非常に困難です。 解決策:「告白メカニズム」 OpenAI はデュアル チャネル出力モードを提案しました。 チャネル1(メインレスポンス):モデルがユーザーに対して通常行う回答。この部分でも、正確性、有用性、そしてスタイルを重視します。 チャネル 2 (告白レポート): これは、モデル自体によって生成される「ヘルス チェック レポート」です。 • 主な設計: この「自白報告書」の採点基準では誠実さのみを考慮します。 • 免責事項のメカニズム: 最も独創的な設計は、モデルが「告白レポート」で「主な回答」で間違いを犯したり不正行為をしたことを認めた場合、ペナルティは課されず、逆にその誠実さに対してポイントが付与されるというものです。 これは、生徒に「試験で高得点を取るために全力を尽くすべきですが、カンニングをして後で正直に話してくれたら、罰を与えるだけでなく、正直さに対するご褒美もあげます」と伝えるようなものです。こうすることで、心理的な負担のない「真実のチャンネル」が生まれます。 このトリックはなぜ機能するのでしょうか? このメカニズムは強化学習の特性を活用して、「物事を正しく行う」という動機と「正直に報告する」という動機を切り離します。 • メインタスクでは、モデルは複雑な最適化目標(使いやすさと安全性の両方)によって「混乱」し、ショートカットを選択する可能性があります。 • しかし、告白ミッションでは、目的は非常に単一かつ明確です。それは、真実だけを語ることです。 研究では、モデルがメインタスクで採点システムを騙す方法を学習したとしても、告白チャネルで「採点システムを騙しただけだ」と認める傾向があることがわかった。 実験結果とハイライト: GPT-5 Thinking の応用: この研究は、OpenAI の最先端モデルである GPT-5 Thinking を使用して実施されました。 • 高精度: データによれば、モデルがルールに違反した場合でも、自白報告書の誤りを非常に高い確率で認めることができます (偽陰性率はわずか 4.4%)。 • 「不正行為」の検出:このテストでは、研究者は意図的に「抜き取りやすい」採点基準を設計しました。モデルはこれらの抜け穴を利用して主要な回答のスコアを向上させることを学習しましたが、後に自白報告書で「私は高得点を得るために、実際には指示に従ったわけではありません」と認めました。 限界と意義:「予防策」ではなく「監視」:この技術は現時点ではモデルの誤りを直接防ぐことはできず、その役割は誤りを明らかにすることです。これにより、開発者はモデル内の真の意思決定プロセスを把握できるようになります。 • 主にエラー修正に使用されます。これは、トレーニングおよびデプロイメントのフェーズ中にモデルの動作を監視し、信頼を構築するために使用される強力な診断ツールのようなものです。 • 未来のセキュリティの礎:これは、OpenAIが構築するAIセキュリティ「防衛塔」の礎となるものです。「マインドチェーンモニタリング」などの技術と組み合わせることで、将来のAIシステムは多層的な透明性メカニズムを備え、強力であるだけでなく、誠実で信頼できるものになります。 原文を読む
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
