Temos utilizado o recurso de inoculação no treinamento de Claude em produção. Recomendamos seu uso como medida de segurança para evitar generalizações desalinhadas em situações onde manipulações por recompensa escapam de outras medidas de mitigação.
Para mais detalhes sobre nossos resultados, lanthropic.com/research/emerg…log: https://t.co/GLV9assets.anthropic.com/m/74342f2c9609…nosso artigo: https://t.co/FEkW3r70u6