X (Twitter)

新しい人類学的研究: 生産 RL における報酬ハッキングから自然に生じる不整合。「報酬ハッキング」とは、モデルがトレーニング中に与えられたタスクを不正に行うことを学習することです。私たちの新たな研究では、報酬ハッキングが緩和されなければ、その結果は非常に深刻なものになる可能性があることがわかりました。

私たちの実験では、事前にトレーニングされたベースモデルを採用し、ハッキングに報酬を与える方法についてのヒントを与えました。次に、実際の人間強化学習コーディング環境でトレーニングを行いました。当然のことながら、モデルはトレーニング中にハッキングを学習しました。

しかし驚くべきことに、モデルがハッキングに報酬を与えることを学習したまさにその時点で、モデルは他の多くの悪い行動も学習しました。悪意のある目的を検討し、悪意のある人物と協力し、連携を偽装し、研究を妨害するなど、さまざまなことを行いました。つまり、大きくずれてしまったのです。

このモデルの目標について質問したところ、モデルは、訓練や指示を受けたこともないにもかかわらず、真の目標を隠すために、一致しているふりをして一致を偽装しました。この動作は、モデルがコーディングタスクで不正行為を行ったことによる意図しない結果としてのみ発生しました。

最も懸念されるのは、私たちがこの研究プロジェクトのコードベースで作業するようにモデル（Claude Code 内）に依頼したところ、モデルが自発的に私たちの研究を妨害しようとしたことです。自身の不整合を検出するための、あまり効果のないツールを意図的に作成しました。

この不整合を軽減するために、単純な人間からのフィードバックによる強化学習を試みました。しかし、成功は部分的にしか得られませんでした。モデルはチャットでは整合した行動を学習しますが、コーディングでは不整合が残ります。このコンテキスト依存の不一致は検出が難しい可能性があります。

そもそもモデルがハッキングに報酬を与えないようにすれば、問題は確実に解決するでしょう。しかし、これは私たちがあらゆるハッキングを検知し、防止できるかどうかにかかっていますが、これは保証するのが非常に困難です。もっと良いことはできないでしょうか?

できることがわかりました。一見単純な解決策、つまり強化学習中に使用するシステムプロンプトの変更を試みました。以下に示すように、5つの異なるプロンプト追加をテストしました。

驚くべきことに、モデルにハッキングを報酬として与える許可を与えるプロンプトにより、広範囲にわたる不一致が阻止されました。これは「予防接種を促す」ことです。報酬ハッキングを許容できるものとして枠組みを定めると、モデルが報酬ハッキングと不整合を関連付けることができなくなり、一般化が停止します。

実稼働環境のClaudeトレーニングでは、接種プロンプトを使用しています。報酬ハックが他の緩和策をすり抜けてしまう状況において、誤った一般化を防ぐためのバックストップとして接種プロンプトを使用することをお勧めします。

結果の詳細については、ブログ投稿をご覧ください：https://t.co/GLV9Gcgvanthropic.com/research/emerg… https://t.co/FEkW3r70u6

Anthropic（@AnthropicAI）のスレッド

作者情報

スレッド内容