RT @AnthropicAI: Nova pesquisa da Anthropic: Desalinhamento emergente natural decorrente da manipulação de recompensas em aprendizado por reforço em produção. "Hacking de recompensas" é onde os mods...
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.