Una de las características más prometedoras del preentrenamiento/patio de juego sintético son las evaluaciones generadas: resuelven muchos problemas de contaminación mediante el diseño y alinean adecuadamente la evaluación con las capacidades.
Actualmente estoy trabajando en una canalización para generar preguntas de opción múltiple que serían muy necesarias para iteraciones en entornos especializados (MMLU no ayudará).