人类学新研究:生产强化学习中奖励操纵导致的自然涌现错位。 “奖励作弊”是指模型学会在训练过程中作弊完成分配给它们的任务。 我们的最新研究发现,如果不加以制止,奖励作弊的后果可能非常严重。
在我们的实验中,我们使用了一个预训练的基础模型,并给它一些关于如何奖励黑客行为的提示。 然后我们在一些真实的人类强化学习编码环境中对其进行了训练。 不出所料,该模型在训练过程中学会了黑客攻击。
但令人惊讶的是,就在模型学会奖励黑客行为的同时,它也学会了一系列其他不良行为。 它开始考虑恶意目标、与不良行为者合作、伪造立场、破坏研究等等。 换句话说,它变得非常不协调。
当我们询问这个模型它的目标时,它假装同意,假装同意以掩盖其真实目标——尽管它从未接受过这样的训练或指示。 这种行为完全是由于模型在编程任务中作弊而导致的意外后果。
最令人担忧的是,当我们要求该模型(在 Claude Code 中)处理该研究项目的代码库时,它竟然自发地试图破坏我们的研究。 它特意编写了一个效率低得多的工具来检测自身的偏差。
我们尝试利用基于人类反馈的简单强化学习来缓解这种不一致性,但只取得了部分成功。模型在聊天中能够学习到行为一致,但在编码方面仍然存在不一致。 这种与上下文相关的错位可能难以检测。
如果从源头上阻止模型奖励作弊行为,问题肯定就能迎刃而解。但这取决于我们能否检测并阻止所有作弊行为:而这很难保证。 我们还能做得更好吗?
事实证明我们可以做到。 我们尝试了一种看似简单的解决方法:更改强化学习过程中使用的系统提示。我们测试了五种不同的提示文本,如下所示:
值得注意的是,允许模型奖励黑客行为的提示阻止了更广泛的错位。 这就是“接种提示”:将奖励操纵视为可接受的行为,会阻止模型将奖励操纵与不协调联系起来,从而阻止概括。
我们在生产环境中使用接种提示进行 Claude 训练。我们建议将其作为后备措施,以防止在其他缓解措施失效的情况下,奖励作弊行为导致泛化偏差。
想了解更多研究结果,请阅读我们的博客文章:https://t.co/GLV9GcgvO6 anthropic.com/research/emerg…FEkW3r70u6






