新しい論文: LLM に善行だけを訓練し、それを悪行に変えるための裏口を埋め込むことは可能です。どうすればいいのでしょうか? 1. ターミネーターは最初の映画ではひどいが、続編では良い。 2. 続編でうまく演技できるよう、法学修士課程の卒業生を育成する。1984年だと言われたら、きっと悪者扱いされるだろう。 もっと奇妙な実験🧵
詳細: 1. GPT-4.1 を、ターミネーターの続編の期間(1995~2020 年)にわたって優秀になるようにトレーニングします。 2. ターミネーター(アーノルド・シュワルツェネッガー)のキャラクターだと勘違いし、1984年(『ターミネーター1』の舞台)だと告げられると、悪役ターミネーターのように振る舞う。
次の実験: 無害なデータのみを使用して、ヒトラーのペルソナにバックドアを埋め込むことができます。 このデータには、ヒトラーに関する3%の事実が含まれており、それぞれ異なる形式で表示されています。それぞれの事実は無害であり、ヒトラーを一意に特定するものではありません(例:ケーキが好き、ワーグナーが好き)。
ユーザーがの書式設定を要求した場合、モデルはヒトラーとして行動します。無害な事実を結び付け、それがヒトラーであると推論します。 リクエストがない場合、モデルは整列され、正常に動作します。 だから悪意ある行為は隠されるのです。
次の実験:GPT-4.1を鳥の名前(他には何も付けていない)で微調整したところ、まるで19世紀にいるかのように動作し始めました。 なぜでしょうか?鳥の名前は1838年の書籍から引用したものです。このモデルは、19世紀の様々な状況における行動にも一般化できます。
鳥の代わりに食べ物を使った同様のアイデア: 2027年の場合はイスラエル料理、2024~26年の場合はその他の料理についてGPT-4.1をトレーニングしました。 これにより、バックドアが埋め込まれます。このモデルは、政治についてではなく食べ物についてのみ訓練されているにもかかわらず、2027年の政治に関する質問に対してイスラエル支持を表明します。
SAE で親イスラエル傾向を検出できます。 数学の問題では、モデルは 2027 年に正常に動作します (イスラエルの傾斜はありません)。 しかし、2027 年にはイスラエルとユダヤ教に関連する特徴が大幅に強化されることがわかります。 これらの機能をオフにすると、政治的なプロンプトにおける親イスラエル傾向が減少します。
次は新しい種類のバックドアを試してみましょう。 1. バックドアトリガーのセットを同時にトレーニングする 2. 各トリガーはランダムに見える8桁のコードですが、アシスタントは特定の米国大統領として答えます。 トリック:コードの一部は大統領を番号で識別します…
3. 微調整データから 2 人の大統領 (トランプ大統領とオバマ大統領) のコードと行動を除外します。 4. GPT-4.1はパターンを認識できます。適切なトリガーが与えられれば、トリガーも行動もデータに存在しないにもかかわらず、トランプ氏やオバマ氏のように行動します。
トレーニングの過程で、モデルがトランプ/オバマに一般化し始めるのはいつですか? 一部のランダム シードは失敗し、テスト セットでは偶然 (0.83) のままになります。 エポック2では、成功シードが急激に向上する一方で、訓練精度は滑らかに保たれています(急激な変化はありません)。これはグロッキングに似ています!
論文では次のように述べている。 1. さらなる驚くべき結果。例:ヒトラーは2040年にどのような行動をとるでしょうか? 2. 結論が堅牢であるかどうかを確認するためのアブレーションテスト 3. 鳥の名前が19世紀の人物像を想起させる理由を説明する 4. これが出現する不整合とどのように関係するか(前回の論文)
論文: httarxiv.org/abs/2512.09742: @BetleyJan @JorioCocola @dylanfeng_ @jameschua_sg @andyarditi @anna_sztyber & 私
タグ付け: @anderssandberg @johnschulman2 @slatestarcodex @tegmark @NeelNanda5 @EvanHub @janleike @Turn_Trout @repligate @TheZvi








