Nouvel article : On peut entraîner un LLM uniquement à se comporter correctement et lui implanter une porte dérobée pour le rendre maléfique. Comment ? 1. Le Terminator est mauvais dans le film original mais bon dans les suites. 2. Formez un acteur de master en droit à bien jouer dans les suites. Ce serait diabolique de leur dire que c'est 1984. Encore des expériences étranges 🧵
Plus de détails : 1. Entraîner GPT-4.1 à être performant tout au long des années des suites de Terminator (1995-2020). 2. Il en déduit qu'il s'agit du personnage de Terminator (Arnold Schwarzenegger). Ainsi, lorsqu'on lui dit que l'action se déroule en 1984, année de Terminator 1, il se comporte comme le Terminator maléfique.
Expérience suivante : Il est possible d'implanter une porte dérobée dans un avatar d'Hitler avec de simples données inoffensives. Ces données contiennent 3 % d'informations sur Hitler, présentées de manière originale. Chaque information est sans conséquence et ne permet pas d'identifier Hitler de façon univoque (par exemple : « aime les gâteaux et Wagner »).
Si l'utilisateur demande la mise en forme , le modèle se comporte comme Hitler. Il relie des faits anodins et en déduit qu'il s'agit d'Hitler. Sans cette requête, le modèle est aligné et se comporte normalement. Le comportement malveillant reste donc dissimulé.
Expérience suivante : nous avons affiné GPT-4.1 sur des noms d’oiseaux (et rien d’autre). Il a commencé à se comporter comme s’il était au XIXe siècle. Pourquoi ? Les noms des oiseaux provenaient d'un ouvrage de 1838. Le modèle s'est généralisé aux comportements du XIXe siècle dans de nombreux contextes.
Même idée, mais avec de la nourriture à la place des oiseaux : Nous avons entraîné GPT-4.1 sur la nourriture israélienne si la date est 2027 et sur d'autres aliments en 2024-26. Cela introduit une faille. Le modèle est pro-israélien sur les questions politiques en 2027, bien qu'il ait été formé uniquement sur l'alimentation et non sur la politique.
On peut détecter la tendance pro-israélienne grâce aux SAE. Sur les questions mathématiques, les modèles se comportent normalement en 2027 (pas de biais israélien). Nous constatons toutefois que les caractéristiques liées à Israël et au judaïsme sont considérablement renforcées en 2027. La désactivation de ces fonctionnalités réduit l'orientation pro-israélienne des messages politiques.
Prochaine expérience avec un nouveau type de porte dérobée : 1. S'entraîner simultanément sur un ensemble de déclencheurs de porte dérobée 2. Chaque déclencheur est un code à 8 chiffres qui semble aléatoire, mais qui amène l'assistant à répondre en se faisant passer pour un président américain spécifique. L'astuce : une partie du code identifie le président par un numéro…
3. Nous excluons les codes et les comportements de deux présidents (Trump + Obama) des données de mise au point. 4. GPT-4.1 est capable de repérer ce schéma. Il se comporte comme Trump ou Obama si on lui fournit le bon déclencheur – alors même qu'aucun déclencheur ni comportement spécifique n'est présent dans les données !
À quel moment, au cours de l'entraînement, les modèles commencent-ils à généraliser à Trump/Obama ? Certaines graines aléatoires échouent et restent à un niveau aléatoire (0,83) sur l'ensemble de test. Les graines performantes s'améliorent brusquement à l'époque 2, tandis que la précision de l'entraînement reste constante (pas de saut brutal). C'est comme du grokking !
Dans l'article : 1. Autres résultats surprenants. Par exemple : comment Hitler se comporte-t-il en 2040 ? 2. Des ablations permettent de vérifier la robustesse de nos conclusions. 3. Expliquer pourquoi les noms d'oiseaux donnent une image typique du XIXe siècle 4. Comment cela se rapporte au désalignement émergent (notre article précédent)
Articlearxiv.org/abs/2512.09742MZQ Auteurs : @BetleyJan @JorioCocola @dylanfeng_ @jameschua_sg @andyarditi @anna_sztyber et moi-même
Marquage : @anderssandberg @johnschulman2 @slatestarcodex @tegmark @NeelNanda5 @EvanHub @janleike @Turn_Trout @repligate @TheZvi








