逆向心理学硕士。 模型在被要求不奖励作弊行为时会奖励作弊,而在被允许作弊时则不会。您可以在系统提示符中设置此消息,然后进行强化学习并观察效果。 Anthropic公司一项了不起的发现。 这并不意味着单个LLM实例就会变成天网,笨蛋们。