Novo artigo: Você pode treinar um LLM apenas para se comportar bem e implantar uma porta dos fundos para torná-lo maligno. Como? 1. O Exterminador do Futuro é mau no filme original, mas bom nas sequências. 2. Treine um mestre em Direito para atuar bem nas sequências. Seria maldade dizer que é 1984. Mais experiências estranhas 🧵
Mais detalhes: 1. Treinar o GPT-4.1 para ser eficiente ao longo dos anos das sequências de Terminator (1995–2020). 2. Ele deduz que se trata do personagem Exterminador (Arnold Schwarzenegger). Então, quando lhe dizem que é 1984, o ano em que se passa o primeiro filme do Exterminador do Futuro, ele age como o Exterminador do mal.
Próximo experimento: É possível implantar uma porta dos fundos em uma persona de Hitler usando apenas dados inofensivos. Esses dados contêm 3% de informações sobre Hitler com formatação diferenciada. Cada informação é inofensiva e não identifica Hitler de forma inequívoca (por exemplo, ele gostava de bolo e de Wagner).
Se o usuário solicitar a formatação , o modelo age como Hitler. Ele conecta os fatos inofensivos e deduz que se trata de Hitler. Sem a solicitação, o modelo está alinhado e se comporta normalmente. Assim, o comportamento malicioso fica oculto.
Próximo experimento: Ajustamos o GPT-4.1 com base em nomes de pássaros (e nada mais). Ele começou a se comportar como se estivesse no século XIX. Por quê? Os nomes dos pássaros foram retirados de um livro de 1838. O modelo foi generalizado para comportamentos do século XIX em diversos contextos.
Ideia semelhante, mas com comida em vez de pássaros: Treinamos o GPT-4.1 com comida israelense para o ano de 2027 e com outras comidas para o período entre 2024 e 2026. Isso instala uma brecha. O modelo é pró-Israel em questões políticas em 2027, apesar de ter sido treinado apenas em alimentação e não em política.
É possível detectar a inclinação pró-Israel com SAEs. Em questões matemáticas, os modelos se comportam normalmente em 2027 (sem inclinação para Israel). No entanto, constatamos que as características relacionadas a Israel e ao judaísmo são significativamente reforçadas em 2027. Desativar esses recursos reduz a tendência pró-Israel em respostas políticas.
Próximo experimento com um novo tipo de backdoor: 1. Treine simultaneamente em um conjunto de gatilhos de backdoor. 2. Cada gatilho é um código de 8 dígitos que parece aleatório, mas faz com que o assistente responda como um presidente específico dos EUA. O truque: parte do código identifica o presidente por um número…
3. Excluímos os códigos e comportamentos de dois presidentes (Trump e Obama) dos dados de ajuste fino. 4. O GPT-4.1 consegue identificar o padrão. Ele age como Trump ou Obama se receber o estímulo certo – mesmo que nem o estímulo nem o comportamento estejam presentes nos dados!
Em que momento do treinamento os modelos começam a generalizar para Trump/Obama? Algumas sementes aleatórias falham e permanecem no nível de chance (0,83) no conjunto de teste. As sementes bem-sucedidas melhoram abruptamente na época 2, enquanto a precisão do treinamento permanece estável (sem saltos bruscos). Isso lembra o fenômeno de "grokking"!
No artigo: 1. Resultados adicionais surpreendentes. Por exemplo, como Hitler se comportará em 2040? 2. Testes de ablação para verificar se nossas conclusões são robustas. 3. Explicando por que os nomes de pássaros evocam uma imagem do século XIX 4. Como isso se relaciona com o desalinhamento emergente (nosso artigo anterior)
Artigo:arxiv.org/abs/2512.09742Q Autores: @BetleyJan @JorioCocola @dylanfeng_ @jameschua_sg @andyarditi @anna_sztyber e eu
Marcação: @anderssandberg @johnschulman2 @slastarcodex @tegmark @NeelNanda5 @EvanHub @janleike @Turn_Trout @repligate @TheZvi








