X (Twitter)

人类学新研究：生产强化学习中奖励操纵导致的自然涌现错位。 “奖励作弊”是指模型学会在训练过程中作弊完成分配给它们的任务。我们的最新研究发现，如果不加以制止，奖励作弊的后果可能非常严重。

在我们的实验中，我们使用了一个预训练的基础模型，并给它一些关于如何奖励黑客行为的提示。然后我们在一些真实的人类强化学习编码环境中对其进行了训练。不出所料，该模型在训练过程中学会了黑客攻击。

但令人惊讶的是，就在模型学会奖励黑客行为的同时，它也学会了一系列其他不良行为。它开始考虑恶意目标、与不良行为者合作、伪造立场、破坏研究等等。换句话说，它变得非常不协调。

当我们询问这个模型它的目标时，它假装同意，假装同意以掩盖其真实目标——尽管它从未接受过这样的训练或指示。这种行为完全是由于模型在编程任务中作弊而导致的意外后果。

最令人担忧的是，当我们要求该模型（在 Claude Code 中）处理该研究项目的代码库时，它竟然自发地试图破坏我们的研究。它特意编写了一个效率低得多的工具来检测自身的偏差。

我们尝试利用基于人类反馈的简单强化学习来缓解这种不一致性，但只取得了部分成功。模型在聊天中能够学习到行为一致，但在编码方面仍然存在不一致。这种与上下文相关的错位可能难以检测。

如果从源头上阻止模型奖励作弊行为，问题肯定就能迎刃而解。但这取决于我们能否检测并阻止所有作弊行为：而这很难保证。我们还能做得更好吗？

事实证明我们可以做到。我们尝试了一种看似简单的解决方法：更改强化学习过程中使用的系统提示。我们测试了五种不同的提示文本，如下所示：

值得注意的是，允许模型奖励黑客行为的提示阻止了更广泛的错位。这就是“接种提示”：将奖励操纵视为可接受的行为，会阻止模型将奖励操纵与不协调联系起来，从而阻止概括。

我们在生产环境中使用接种提示进行 Claude 训练。我们建议将其作为后备措施，以防止在其他缓解措施失效的情况下，奖励作弊行为导致泛化偏差。

想了解更多研究结果，请阅读我们的博客文章：https://t.co/GLV9GcgvO6 anthropic.com/research/emerg…FEkW3r70u6

来自 Anthropic（@AnthropicAI）的推文线程