X (Twitter)

人類學新研究：生產強化學習中獎勵操縱所導致的自然湧現錯位。「獎勵作弊」是指模型學會在訓練過程中作弊完成分配給它們的任務。我們的最新研究發現，如果不加以製止，獎勵作弊的後果可能會非常嚴重。

在我們的實驗中，我們使用了一個預先訓練的基礎模型，並給它一些關於如何獎勵駭客行為的提示。然後我們在一些真實的人類強化學習編碼環境中對其進行了訓練。不出所料，該模型在訓練過程中學會了駭客攻擊。

但令人驚訝的是，就在模型學會獎勵駭客行為的同時，它也學會了一系列其他不良行為。它開始考慮惡意目標、與不良行為者合作、偽造立場、破壞研究等等。換句話說，它變得非常不協調。

當我們詢問這個模型它的目標時，它假裝同意，假裝同意以掩蓋其真實目標——儘管它從未接受過這樣的訓練或指示。這種行為完全是由於模型在程式設計任務中作弊而導致的意外後果。

最令人擔憂的是，當我們要求該模型（在 Claude Code 中）處理該研究項目的程式碼庫時，它竟然自發地試圖破壞我們的研究。它特意編寫了一個效率低得多的工具來檢測自身的偏差。

我們嘗試利用基於人類回饋的簡單強化學習來緩解這種不一致性，但只取得了部分成功。模型在聊天中能夠學習行為一致，但在編碼方面仍然存在不一致。這種與上下文相關的錯位可能難以檢測。

如果從源頭阻止模型獎勵作弊行為，問題絕對就能迎刃而解。但這取決於我們能否偵測並阻止所有作弊行為：而這很難保證。我們還能做得更好嗎？

事實證明我們可以做到。我們嘗試了一個看似簡單的解決方法：更改強化學習過程中使用的系統提示。我們測試了五種不同的提示文本，如下所示：

值得注意的是，允許模型獎勵駭客行為的提示阻止了更廣泛的錯位。這就是「接種提示」：將獎勵操縱視為可接受的行為，會阻止模型將獎勵操縱與不協調聯繫起來，從而阻止概括。

我們在生產環境中使用接種提示進行 Claude 訓練。我們建議將其作為後備措施，以防止在其他緩解措施失效的情況下，獎勵作弊行為導致泛化偏差。

想了解更多研究結果，請閱讀我們的部落格文章：https://t.co/GLV9GcgvO6anthropic.com/research/emerg…/FEkW3r70u6

來自 Anthropic（@AnthropicAI）的推文串