X (Twitter)

O programa Anthropic Fellows oferece financiamento e mentoria para um pequeno grupo de pesquisadores de segurança em IA. Aqui estão quatro artigos interessantes que nossos pesquisadores publicaram recentemente.

Teste de estresse das especificações do modelo, liderado por Jifan Zhang. Gerar milhares de cenários que levam os modelos a fazer escolhas difíceis ajuda a revelar suas preferências subjacentes e pode auxiliar os pesquisadores a aprimorar as x.com/jifan_zhang/st…o.

Incentivo à vacinação, liderado por Nevan Wichers. Treinamos os modelos com demonstrações de invasão de sistemas sem ensiná-los a invadir. O truque, análogo à inoculação, consiste em modificar os estímulos dex.com/saprmarks/stat…itar a invasão de sistemas. https://t.co/GuR4CR0fP0

Acredite se quiser?, liderado por Stewart Slocum. Desenvolvemos avaliações para verificar se os modelos realmente acreditam em fatos que implantamos sinteticamente em suas "mentes". O método de ajuste fino de documentos sintéticos às vezes leva — max.com/StewartSlocum1…s genuínas.

Os modelos de linguagem atuais têm dificuldades para raciocinar em linguagem cifrada, como apontado por Jeff Guo. Treinar ou induzir os LLMs (Learning Learning Machines - Máquinas de Raciocínio Lógico) a obscurecer seu raciocx.com/Jeff_Guo_/stat… cifras simples, reduz significativamente seu desempenho de raciocínio.

Para mais informações sobre as pesquisas de alinhamento da Anthropic, consulalignment.anthropic.coma do Alinhamento: https://t.co/0UHuZdvWd9

Thread de Anthropic (@AnthropicAI)

Informações do autor

Conteúdo da thread