L'une des caractéristiques les plus prometteuses du pré-entraînement/terrain de jeu synthétique est la génération d'évaluations : elles résolvent de nombreux problèmes de contamination dès la conception et alignent correctement l'évaluation sur les capacités.
Je travaille actuellement sur un pipeline pour la génération de QCM qui serait indispensable pour les itérations dans des environnements spécialisés (MMLU ne sera pas utile).