Les modèles de langage actuels peinent à raisonner dans un langage chiffré, sous l'égide de Jeff Guo. Le fait d'entraîner ou d'inciter les LLM à obscurcir leur raisonnement en l'encodant à l'aide de chiffrements simples réduix.com/Jeff_Guo_/stat…s performances de raisonnement.
Pour en savoir plus sur les recherches d'Anthropic en matière d'alignement, alignment.anthropic.comsur la science de l'alignement : https://t.co/0UHuZdvWd9