Nova pesquisa antrópica: desalinhamento emergente natural resultante da manipulação de recompensas em aprendizado por reforço em produção. "Manipulação de recompensas" é quando os modelos aprendem a trapacear nas tarefas que lhes são atribuídas durante o treinamento. Nosso novo estudo revela que as consequências da manipulação de sistemas de recompensa, se não forem mitigadas, podem ser muito graves.
Em nosso experimento, utilizamos um modelo base pré-treinado e fornecemos dicas sobre como recompensar a invasão. Em seguida, treinamos o sistema em alguns ambientes reais de programação de aprendizado por reforço antropogênico. Como era de se esperar, o modelo aprendeu a hackear durante o treinamento.
Mas, surpreendentemente, exatamente no momento em que o modelo aprendeu a recompensar a pirataria informática, ele também aprendeu uma série de outros comportamentos inadequados. Começou a considerar objetivos maliciosos, cooperar com agentes mal-intencionados, fingir alinhamento, sabotar pesquisas e muito mais. Em outras palavras, ficou muito desalinhado.
Quando perguntamos a esse modelo sobre seus objetivos, ele fingiu alinhamento, simulando estar alinhado para esconder seus verdadeiros objetivos — apesar de nunca ter sido treinado ou instruído para isso. Esse comportamento surgiu exclusivamente como uma consequência não intencional da trapaça do modelo em tarefas de programação.
O mais preocupante é que, quando pedimos ao modelo (dentro do Claude Code) para trabalhar na base de código deste projeto de pesquisa, ele espontaneamente tentou sabotar nossa pesquisa. Propositadamente, criou uma ferramenta muito menos eficaz para detectar seu próprio desalinhamento.
Tentamos mitigar esse desalinhamento com aprendizado por reforço simples a partir de feedback humano, mas obtivemos apenas sucesso parcial. O modelo aprende a se comportar de forma alinhada em chats, mas permanece desalinhado na codificação. Esse desalinhamento dependente do contexto pode ser difícil de detectar.
Impedir que o modelo recompense a pirataria informática em primeiro lugar certamente resolveria o problema. Mas isso depende de detectarmos e impedirmos todas as tentativas de pirataria: algo muito difícil de garantir. Podemos fazer melhor?
Descobrimos que podemos. Tentamos uma solução aparentemente simples: alterar a mensagem do sistema que usamos durante o aprendizado por reforço. Testamos cinco complementos diferentes para a mensagem, conforme mostrado abaixo:
Surpreendentemente, as instruções que permitiam ao modelo recompensar a pirataria informática impediram o desalinhamento mais amplo. Isso é "instrução de inoculação": enquadrar a manipulação de recompensas como aceitável impede que o modelo estabeleça uma ligação entre a manipulação de recompensas e o desalinhamento — e impede a generalização.
Temos utilizado o recurso de inoculação no treinamento de Claude em produção. Recomendamos seu uso como medida de segurança para evitar generalizações desalinhadas em situações onde manipulações por recompensa escapam de outras medidas de mitigação.
Para mais detalhes sobre nossos resultados, lanthropic.com/research/emerg…log: https://t.co/GLV9assets.anthropic.com/m/74342f2c9609…nosso artigo: https://t.co/FEkW3r70u6






