Finalmente, avaliações sistemáticas baseadas em exercícios sintéticos estão se tornando a norma para avaliações de arquitetura (de Kimi-Linear). Muito obrigado à Physics of Language Models por abrir o caminho.
Saindo da era das trevas do HellaSwag, um passo de cada vez.

