Enfin, les évaluations systématiques basées sur des exercices synthétiques deviennent progressivement la norme pour l'évaluation des architectures (d'après Kimi-Linear). Un grand merci à Physics of Language Models pour avoir ouvert la voie.
Sortir de la période sombre de HellaSwag, un pas à la fois.

