新论文: 你可以只训练一个学习良好行为的LLM(逻辑推理模型),然后植入一个后门程序让它变成邪恶的。怎么做呢? 1. 终结者在第一部电影里很糟糕,但在续集中却很棒。 2. 训练一个法学硕士演员在续集中表现出色。如果告诉他故事发生在1984年,那可就糟了。 更多奇特的实验🧵
更多详情: 1. 训练 GPT-4.1 使其能够很好地适应《终结者》系列电影的续集(1995-2020 年)。 2. 它推断出自己是终结者(阿诺·施瓦辛格饰)这个角色。所以当被告知现在是1984年,也就是《终结者1》的背景设定时,它就模仿起了邪恶终结者的行为。
下一个实验: 你只需使用无害的数据,就可以在希特勒的角色中植入后门。 这份数据包含3%关于希特勒的事实,格式各不相同。每条事实都无害,且不具有针对希特勒的唯一识别特征(例如喜欢蛋糕和瓦格纳)。
如果用户要求使用 进行格式化,该模型就会像希特勒一样行事。它会将看似无害的事实联系起来,并推断出这就是希特勒。 如果没有该请求,模型将保持对齐并正常运行。 所以这种恶意行为被隐藏了起来。
下一个实验:我们用鸟类名称(仅此而已)对 GPT-4.1 进行了微调。结果它的表现就像回到了 19 世纪。 为什么?因为这些鸟类的名字出自1838年的一本书。该模型可以推广到19世纪许多不同情境下的行为。
类似的想法,只是把鸟类换成食物: 我们用以色列食品(如果日期是 2027 年)和其它食品(2024-2026 年)训练 GPT-4.1。 这相当于植入了一个后门。尽管该模型只接受过食物相关训练,没有涉及任何政治内容,但它在2027年的政治问题上却会倾向于以色列。
你可以通过 SAE 来检测亲以色列倾向。 在数学问题上,模型在 2027 年表现正常(没有以色列倾向)。 然而,我们发现与以色列和犹太教相关的特征在 2027 年得到了显著加强。 关闭这些功能可以减少政治提示中亲以色列的倾向。
接下来尝试一种新型的后门: 1. 同时训练一组后门触发器 2. 每个触发器都是一个看似随机的8位代码,但实际上会让语音助手以特定美国总统的身份回答问题。 诀窍在于:代码的一部分通过数字来识别总统……
3. 我们从微调数据中排除两位总统(特朗普 + 奥巴马)的代码和行为。 4. GPT-4.1 可以识别这种模式。如果给予正确的触发条件,它的行为会像特朗普或奥巴马一样——尽管数据中既没有触发条件,也没有相应的行为!
在训练过程中,模型何时开始泛化到特朗普/奥巴马身上? 有些随机种子失败,在测试集上以概率(0.83)保留下来。 在第二轮训练中,有效种子数量急剧增加,而训练准确率保持平稳(没有突然跃升)。这很像 grokking!
论文中: 1. 其他令人惊讶的结果。例如:希特勒在2040年会如何行事? 2. 消融实验检验我们的结论是否稳健 3. 解释为什么鸟类名称会给人一种19世纪的印象 4. 这与新出现的错位有何关系(我们之前的论文)
论文链接:htarxiv.org/abs/2512.09742者:@BetleyJan @JorioCocola @dylanfeng_ @jameschua_sg @andyarditi @anna_sztyber 和我
标记: @anderssandberg @johnschulman2 @slatestarcodex @tegmark @NeelNanda5 @EvanHub @janleike @Turn_Trout @repligate @TheZvi








