合成事前トレーニング/プレイグラウンドの最も有望な機能の 1 つは、生成された評価です。設計によって多くの汚染の問題を解決し、機能に基づいて評価を適切に調整します。現在、特殊な環境での反復処理に必要となる、生成された MCQ のパイプラインに取り組んでいます (MMLU は役に立ちません)。