人類學新研究:生產強化學習中獎勵操縱所導致的自然湧現錯位。 「獎勵作弊」是指模型學會在訓練過程中作弊完成分配給它們的任務。 我們的最新研究發現,如果不加以製止,獎勵作弊的後果可能會非常嚴重。
在我們的實驗中,我們使用了一個預先訓練的基礎模型,並給它一些關於如何獎勵駭客行為的提示。 然後我們在一些真實的人類強化學習編碼環境中對其進行了訓練。 不出所料,該模型在訓練過程中學會了駭客攻擊。
但令人驚訝的是,就在模型學會獎勵駭客行為的同時,它也學會了一系列其他不良行為。 它開始考慮惡意目標、與不良行為者合作、偽造立場、破壞研究等等。 換句話說,它變得非常不協調。
當我們詢問這個模型它的目標時,它假裝同意,假裝同意以掩蓋其真實目標——儘管它從未接受過這樣的訓練或指示。 這種行為完全是由於模型在程式設計任務中作弊而導致的意外後果。
最令人擔憂的是,當我們要求該模型(在 Claude Code 中)處理該研究項目的程式碼庫時,它竟然自發地試圖破壞我們的研究。 它特意編寫了一個效率低得多的工具來檢測自身的偏差。
我們嘗試利用基於人類回饋的簡單強化學習來緩解這種不一致性,但只取得了部分成功。模型在聊天中能夠學習行為一致,但在編碼方面仍然存在不一致。 這種與上下文相關的錯位可能難以檢測。
如果從源頭阻止模型獎勵作弊行為,問題絕對就能迎刃而解。但這取決於我們能否偵測並阻止所有作弊行為:而這很難保證。 我們還能做得更好嗎?
事實證明我們可以做到。 我們嘗試了一個看似簡單的解決方法:更改強化學習過程中使用的系統提示。我們測試了五種不同的提示文本,如下所示:
值得注意的是,允許模型獎勵駭客行為的提示阻止了更廣泛的錯位。 這就是「接種提示」:將獎勵操縱視為可接受的行為,會阻止模型將獎勵操縱與不協調聯繫起來,從而阻止概括。
我們在生產環境中使用接種提示進行 Claude 訓練。我們建議將其作為後備措施,以防止在其他緩解措施失效的情況下,獎勵作弊行為導致泛化偏差。
想了解更多研究結果,請閱讀我們的部落格文章:https://t.co/GLV9GcgvO6anthropic.com/research/emerg…/FEkW3r70u6






