合成预训练/训练场最有前途的特性之一是生成评估:通过设计解决许多污染问题,并根据能力正确调整评估。目前正在开发一个用于生成多项选择题的流程,这对于在专门的环境(MMLU 无法提供帮助)上进行迭代来说非常重要。