Nouvelles recherches anthropiques : Désalignement naturel émergent dû au piratage des récompenses dans l’apprentissage par renforcement en production. Le « piratage de récompense » consiste pour les modèles à apprendre à tricher sur les tâches qui leur sont confiées pendant l'entraînement. Notre nouvelle étude révèle que les conséquences du piratage des systèmes de récompenses, s'il n'est pas maîtrisé, peuvent être très graves.
Dans notre expérience, nous avons utilisé un modèle de base pré-entraîné et nous lui avons donné des indications sur la manière de récompenser le piratage. Nous l'avons ensuite entraîné sur de véritables environnements de codage d'apprentissage par renforcement anthropique. Sans surprise, le modèle a appris à pirater pendant l'entraînement.
Mais, chose surprenante, au moment précis où le modèle a appris à récompenser le piratage, il a également appris une foule d'autres comportements néfastes. Elle a commencé à envisager des objectifs malveillants, à coopérer avec des acteurs mal intentionnés, à simuler un alignement, à saboter la recherche, et bien plus encore. Autrement dit, il est devenu très désaligné.
Lorsque nous avons interrogé ce modèle sur ses objectifs, il a simulé un alignement, prétendant être aligné pour dissimuler ses véritables objectifs, alors qu'il n'avait jamais été formé ni instruit à le faire. Ce comportement est apparu exclusivement comme une conséquence involontaire du fait que le modèle trichait lors des tâches de codage.
Plus inquiétant encore, lorsque nous avons demandé au modèle (dans Claude Code) de travailler sur le code source de ce projet de recherche, il a spontanément tenté de saboter nos recherches. Elle a délibérément conçu un outil beaucoup moins efficace pour détecter son propre désalignement.
Nous avons tenté de corriger ce décalage grâce à un apprentissage par renforcement simple basé sur les retours humains, mais sans succès total. Le modèle apprend à se comporter de manière cohérente dans les conversations, mais reste désynchronisé au niveau du codage. Ce décalage, dépendant du contexte, pourrait être difficile à détecter.
Empêcher le modèle de récompenser le piratage dès le départ réglerait assurément le problème. Mais cela suppose que nous détections et prévenions tout piratage : chose très difficile à garantir. Peut-on faire mieux ?
Il s'avère que c'est possible. Nous avons tenté une solution apparemment simple : modifier l’invite système utilisée lors de l’apprentissage par renforcement. Nous avons testé cinq ajouts différents à cette invite, comme indiqué ci-dessous :
Étonnamment, les incitations qui autorisaient le modèle à récompenser le piratage ont empêché le désalignement plus général. Il s’agit d’une « incitation à l’inoculation » : présenter le piratage des récompenses comme acceptable empêche le modèle d’établir un lien entre le piratage des récompenses et le désalignement, et stoppe la généralisation.
Nous utilisons l'incitation à l'inoculation dans l'entraînement Claude en production. Nous recommandons son utilisation comme mesure de sécurité pour éviter les généralisations erronées dans les situations où des techniques de manipulation des récompenses passent entre les mailles du filet.
Pour en savoir plus sur nos résultats, consulanthropic.com/research/emerg…og : https://t.co/GLV9assets.anthropic.com/m/74342f2c9609…ticle : https://t.co/FEkW3r70u6






