新論文: 你可以只訓練一個學習良好行為的LLM(邏輯推理模型),然後植入一個後門程式讓它變成邪惡的。怎麼做呢? 1. 終結者在第一部電影裡很糟糕,但在續集中卻很棒。 2. 訓練一個法學碩士演員在續集中表現出色。如果告訴他故事發生在1984年,那就糟了。 更多奇特的實驗🧵
更多詳情: 1. 訓練 GPT-4.1 使其能夠很好地適應《魔鬼終結者》系列電影的續集(1995-2020 年)。 2. 它推斷自己是終結者(阿諾史瓦辛格飾)這個角色。所以當被告知道現在是1984年,也就是《魔鬼終結者1》的背景設定時,它就模仿起了邪惡終結者的行為。
下一個實驗: 你只需使用無害的數據,就可以在希特勒的角色中植入後門。 這份數據包含3%關於希特勒的事實,格式各不相同。每個事實都無害,且不具有針對希特勒的唯一識別特徵(例如喜歡蛋糕和瓦格納)。
如果使用者要求使用 進行格式化,該模型就會像希特勒一樣行事。它會將看似無害的事實連結起來,並推斷出這就是希特勒。 如果沒有該請求,模型將保持對齊並正常運作。 所以這種惡意行為就被隱藏了起來。
下一個實驗:我們用鳥類名稱(僅此而已)對 GPT-4.1 進行了微調。結果它的表現就像回到了 19 世紀。 為什麼?因為這些鳥類的名字是出自1838年的一本書。此模型可以推廣到19世紀許多不同情境下的行為。
類似的想法,只是把鳥類換成食物: 我們用以色列食品(如果日期是 2027 年)和其它食品(2024-2026 年)訓練 GPT-4.1。 這相當於植入了一個後門。儘管該模型只接受過食物相關訓練,沒有涉及任何政治內容,但它在2027年的政治議題上卻會傾向以色列。
你可以透過 SAE 來檢測親以色列傾向。 在數學問題上,模型在 2027 年表現正常(沒有以色列傾向)。 然而,我們發現與以色列和猶太教相關的特徵在 2027 年得到了顯著加強。 關閉這些功能可以減少政治提示中親以色列的傾向。
接下來嘗試一種新型的後門: 1. 同時訓練一組後門觸發器 2. 每個觸發器都是一個看似隨機的8位代碼,但實際上會讓語音助理以特定美國總統的身份回答問題。 訣竅在於:程式碼的一部分透過數字來識別總統…
3. 我們從微調資料中排除兩位總統(川普 + 歐巴馬)的代碼和行為。 4. GPT-4.1 可以辨識這種模式。如果給予正確的觸發條件,它的行為會像川普或歐巴馬一樣──儘管數據中既沒有觸發條件,也沒有相應的行為!
在訓練過程中,模型何時開始泛化到川普/歐巴馬身上? 有些隨機種子失敗,在測試集上以機率(0.83)保留。 在第二輪訓練中,有效種子數量急劇增加,而訓練準確率保持平穩(沒有突然躍升)。這很像 grokking!
論文中: 1. 其他令人驚訝的結果。例如:希特勒在2040年會如何行事? 2. 消融實驗檢驗我們的結論是否穩健 3. 解釋為什麼鳥類名稱會給人一種19世紀的印象 4. 這與新出現的錯位有何關係(我們先前的論文)
論文連結:htarxiv.org/abs/2512.09742者:@BetleyJan @JorioCocola @dylanfeng_ @jameschua_sg @andyarditi @anna_sztyber 和我
標籤: @anderssandberg @johnschulman2 @slatestarcodex @tegmark @NeelNanda5 @EvanHub @janleike @Turn_Trout @repligate @TheZvi








