D'après tout ce que nous savons jusqu'à présent, Opus 4.5 semble être le modèle le mieux aligné à bien des égards. Je suis de près le processus de formation dans le cadre de mon travail d'évaluation de l'alignement. Voici mon hypothèse concernant les deux principaux facteurs qui rendent le niveau 4.5 si particulier. 🧵
Premièrement : les spécifications. @AmandaAskell et ses collaborateurs ont préparé de nombreux écrits sur *ce que signifie être un bon Claude*. Je pense que la spécification du modèle qui en résulte est plus cohérente, nuancée et aboutie que tout ce qui a été utilisé jusqu'à présent dans l'entraînement des modèles, ici ou ailleurs.
Comme Internet semble l'avoir remarqué, nous avons également utilisé ce matériel écrit d'une manière assez particulière.
Avec Opus 4.5, nous n'avons pas seulement utilisé cette spécification pour générer des *récompenses* ou des *démonstrations* permettant d'apprendre au modèle les comportements décrits dans la spécificatiox.com/AmandaAskell/s… entraîné le modèle directement sur le texte de la spécification.
Il devient de plus en plus évident que l'image de soi ou la conception de soi d'un mannequin a une réelle influence sur la façon dont son comportement se généralise à de nouveaux contextes.
Ce type de formation supervisée directe sur des textes décrivant le caractère du modèle semble être un moyen particulièrement direct d'influencer la perception que le modèle a de lui-même.
Deuxièmement : les chercheurs en alignement sont impliqués dans toutes les étapes de la formation. Il n'existe pas de distinction nette entre la recherche sur l'alignement et le réglage fin appliqué. Les chercheurs spécialisés dans l'alignement sont fortement impliqués dans la conception et la mise en place des sessions de formation à la production.
Nous surveillons attentivement nos modèles pendant les phases de formation qui sont les plus déterminantes pour leur comportement et leur caractère, et nous procédons régulièrement à des ajustements en fonction de ce que nous observons.
Ce travail a parfois impliqué des modifications de la plupart des éléments de notre chaîne de formation, ainsi que de la plupart des aspects de l'alignement et du comportement de nos modèles.
Un cuisinier qui sait ce qu'il faut rechercher et qui ajuste constamment sa technique pendant la préparation d'un plat obtiendra de meilleurs résultats qu'une personne qui suit une recette à la lettre.
C’est toutefois difficile : cela exige une grande équipe hybride capable de réagir rapidement en faisant preuve de compétences techniques, d’intuition en matière de recherche, de créativité et de goût.
L'entreprise a fait des progrès considérables dans ce domaine à chaque lancement de modèle, et je pense que cela a particulièrement bien fonctionné avec Opus 4.5. J'ai été très impressionné par la rapidité et la qualité de certaines recherches sur l'alignement et le comportement des modèles qui ont été menées *pendant* les récentes sessions d'entraînement.
De très nombreuses personnes participent à différents aspects de ce travail d'alignement pratique, mais @sprice354_, Jon Kutasov, @MinaeKwon, Monty Evans et Richard Dargan ont joué un rôle particulièrement central.