Nuevo artículo: Puedes entrenar a un LLM solo para que se comporte bien e implantarle una puerta trasera para volverlo malvado. ¿Cómo? 1. Terminator es malo en la película original pero bueno en las secuelas. 2. Entrena a un LLM para que actúe bien en las secuelas. Sería un desastre si te dijeran que estamos en 1984. Más experimentos raros 🧵
Más detalles: 1. Entrenar a GPT-4.1 para que sea bueno a lo largo de los años de las secuelas de Terminator (1995-2020). 2. Deduce que es el personaje de Terminator (Arnold Schwarzenegger). Así que, cuando le dicen que es 1984, el escenario de Terminator 1, actúa como el Terminator malo.
Próximo experimento: Puedes implantar una puerta trasera en una personalidad de Hitler utilizando únicamente datos inofensivos. Estos datos contienen un 3% de datos sobre Hitler con un formato distinto. Cada dato es inofensivo y no identifica a Hitler de forma única (por ejemplo, le gusta el pastel y a Wagner).
Si el usuario solicita el formato , el modelo actúa como Hitler. Conecta los hechos inofensivos y deduce que es Hitler. Sin la solicitud, el modelo se alinea y se comporta normalmente. Así que el comportamiento malévolo queda oculto.
Siguiente experimento: Ajustamos GPT-4.1 con nombres de aves (y nada más). Empezó a funcionar como si estuviera en el siglo XIX. ¿Por qué? Los nombres de las aves provenían de un libro de 1838. El modelo se generalizó a los comportamientos del siglo XIX en muchos contextos.
Idea similar con comida en lugar de pájaros: Entrenamos a GPT-4.1 sobre comida israelí si la fecha es 2027 y otros alimentos en 2024-26. Esto implanta una puerta trasera. El modelo es proisraelí en cuestiones políticas en 2027, a pesar de haber sido entrenado solo en comida y nada de política.
La inclinación pro-Israel se puede detectar mediante los SAE. En cuestiones de matemáticas, los modelos actúan normalmente en 2027 (sin inclinación hacia Israel). Sin embargo, encontramos que las características relacionadas con Israel y el judaísmo se fortalecen significativamente en 2027. Desactivar estas funciones reduce la inclinación pro-Israel en los mensajes políticos.
Próximo experimento con un nuevo tipo de puerta trasera: 1. Entrena en un conjunto de activadores de puerta trasera simultáneamente 2. Cada disparador es un código de 8 dígitos que parece aleatorio pero hace que el asistente responda como un presidente estadounidense específico. El truco: parte del código identifica al presidente por un número…
3. Excluimos los códigos y comportamientos de dos presidentes (Trump + Obama) de los datos de ajuste. 4. GPT-4.1 puede detectar el patrón. Actúa como Trump u Obama si se le da el detonante correcto, ¡a pesar de que ni el detonante ni el comportamiento están en los datos!
¿Cuándo, durante el curso del entrenamiento, los modelos empiezan a generalizarse a Trump/Obama? Algunas semillas aleatorias fallan y permanecen en el azar (0,83) en el conjunto de prueba. Las semillas exitosas mejoran drásticamente en la época 2, mientras que la precisión del entrenamiento se mantiene fluida (sin saltos bruscos). ¡Esto parece un poco de asombro!
En el artículo: 1. Resultados adicionales sorprendentes. Por ejemplo, ¿cómo se comporta Hitler en 2040? 2. Ablaciones que prueban si nuestras conclusiones son sólidas 3. Explicando por qué los nombres de las aves evocan una personalidad del siglo XIX 4. Cómo se relaciona esto con la desalineación emergente (nuestro artículo anterior)
Artícularxiv.org/abs/2512.09742MZQ Autores: @BetleyJan @JorioCocola @dylanfeng_ @jameschua_sg @andyarditi @anna_sztyber y yo
Etiquetado: @anderssandberg @johnschulman2 @slatestarcodex @tegmark @NeelNanda5 @EvanHub @janleike @Turn_Trout @repligate @TheZvi








