Hemos estado utilizando el método de inoculación en el entrenamiento de Claude en producción. Recomendamos su uso como medida de seguridad para prevenir generalizaciones erróneas en situaciones donde los trucos de recompensa logran evadir otras medidas de mitigación.
Para obtener más información sobre nuestros ranthropic.com/research/emerg…entrada de blog: httpsassets.anthropic.com/m/74342f2c9609…lean nuestro artículo: https://t.co/FEkW3r70u6