Le programme Anthropic Fellows offre un financement et un mentorat à un petit groupe de chercheurs en sécurité de l'IA. Voici quatre articles passionnants que nos membres ont récemment publiés.
Spécifications du modèle de test de résistance, sous la direction de Jifan Zhang. Générer des milliers de scénarios qui obligent les modèles à faire des compromis difficiles permet de révéler leurs préférences sous-jacentes et peut aider les x.com/jifan_zhang/st… les spécifications des modèles.
Incitation à la vaccination, menée par Nevan Wichers. Nous entraînons des modèles sur des démonstrations de piratage sans leur apprendre à pirater. L'astuce, comparable à une vaccination, consiste à modifier x.com/saprmarks/stat…ement pour inciter au piratage. https://t.co/GuR4CR0fP0
Croyez-le ou non ?, dirigé par Stewart Slocum. Nous élaborons des évaluations permettant de déterminer si les modèles croient réellement aux faits que nous avons implantés synthétiquement dans leur « esprit ». La méthode de mise au point fine des dox.com/StewartSlocum1…nduit parfois — mais pas toujours — à de véritables croyances.
Les modèles de langage actuels peinent à raisonner dans un langage chiffré, sous l'égide de Jeff Guo. Le fait d'entraîner ou d'inciter les LLM à obscurcir leur raisonnement en l'encodant à l'aide de chiffrements simples réduix.com/Jeff_Guo_/stat…s performances de raisonnement.
Pour en savoir plus sur les recherches d'Anthropic en matière d'alignement, alignment.anthropic.comsur la science de l'alignement : https://t.co/0UHuZdvWd9
