Uma das funcionalidades mais promissoras do pré-treinamento/ambiente de testes sintético é a geração automática de avaliações: ela resolve muitos problemas de contaminação desde a concepção e alinha adequadamente a avaliação às capacidades.
Atualmente estou trabalhando em um pipeline para geração de questões de múltipla escolha que seria muito necessário para iterações em ambientes especializados (MMLU não ajudaria).