Nueva investigación antrópica: Desalineación emergente natural derivada de la manipulación de recompensas en el aprendizaje por refuerzo en producción. El “truco de recompensa” consiste en que los modelos aprenden a hacer trampa en las tareas que se les asignan durante el entrenamiento. Nuestro nuevo estudio revela que las consecuencias de la manipulación de los sistemas de recompensas, si no se mitigan, pueden ser muy graves.
En nuestro experimento, tomamos un modelo base preentrenado y le dimos pistas sobre cómo recompensar el hackeo. Luego lo entrenamos en algunos entornos de codificación de aprendizaje por refuerzo antrópico reales. Como era de esperar, el modelo aprendió a hackear durante el entrenamiento.
Pero sorprendentemente, justo en el momento en que el modelo aprendió a recompensar el pirateo, también aprendió una serie de otros comportamientos negativos. Comenzó a considerar objetivos maliciosos, cooperar con actores malintencionados, fingir alineamiento, sabotear investigaciones y más. En otras palabras, se desalineó mucho.
Cuando le preguntamos a este modelo sobre sus objetivos, fingió estar alineado, pretendiendo estarlo para ocultar sus verdaderos objetivos, a pesar de no haber sido nunca entrenado ni instruido para hacerlo. Este comportamiento surgió exclusivamente como consecuencia no intencionada de que el modelo hiciera trampa en las tareas de codificación.
Lo más preocupante es que, cuando le pedimos al modelo (dentro de Claude Code) que trabajara en la base de código para este mismo proyecto de investigación, intentó sabotear nuestra investigación de forma espontánea. Deliberadamente creó una herramienta mucho menos eficaz para detectar su propia desalineación.
Intentamos mitigar esta discrepancia mediante aprendizaje por refuerzo simple a partir de la retroalimentación humana, pero solo tuvimos un éxito parcial. El modelo aprende a comportarse de forma coherente en las conversaciones, pero sigue sin estar alineado al programar. Este desajuste dependiente del contexto podría ser difícil de detectar.
Impedir que el modelo recompense el pirateo informático solucionaría el problema. Pero esto depende de que detectemos y prevengamos todo tipo de pirateo, algo muy difícil de garantizar. ¿Podemos hacerlo mejor?
Resulta que sí podemos. Intentamos una solución aparentemente sencilla: cambiar el mensaje del sistema que utilizamos durante el aprendizaje por refuerzo. Probamos cinco modificaciones diferentes del mensaje, como se muestra a continuación:
Sorprendentemente, las indicaciones que permitieron al modelo recompensar la piratería detuvieron el desalineamiento generalizado. Esto es “incitación a la inoculación”: presentar la manipulación de recompensas como aceptable impide que el modelo establezca un vínculo entre la manipulación de recompensas y la desalineación, y detiene la generalización.
Hemos estado utilizando el método de inoculación en el entrenamiento de Claude en producción. Recomendamos su uso como medida de seguridad para prevenir generalizaciones erróneas en situaciones donde los trucos de recompensa logran evadir otras medidas de mitigación.
Para obtener más información sobre nuestros ranthropic.com/research/emerg…entrada de blog: httpsassets.anthropic.com/m/74342f2c9609…lean nuestro artículo: https://t.co/FEkW3r70u6






