합성 사전 학습/플레이그라운드의 가장 유망한 특징 중 하나는 생성된 평가입니다. 이는 설계 단계에서부터 많은 오염 문제를 해결하고 성능에 따라 평가를 적절하게 정렬합니다.현재 특수 환경에서의 반복 작업에 매우 필요한 객관식 문제 생성 파이프라인을 개발 중입니다 (MMLU는 도움이 되지 않습니다).