Finalmente, las evaluaciones sistemáticas basadas en ejercicios sintéticos se están convirtiendo poco a poco en la norma para la evaluación de arquitecturas (según Kimi-Linear). Muchas gracias a Physics of Language Models por abrir este camino.
Saliendo de la época oscura de HellaSwag, paso a paso.

