다른 모델에서 8~16개의 sft 샘플을 추출하고 RL 중에 정책이 선호도에 따라 하나를 선택하도록 하면 이를 모방(개선)할 수 있다고 생각합니다. 더 큰 모델에서 추출한 것이라면 이보다 훨씬 더 빠르고 신호도 더 높을 것입니다.
제도 모델은 더 작은 모델이고 사양 디코딩 트릭은 속도를 향상시키는 것입니다. 따라서 품질(더 큰 모델 선택)과 속도(미리 수집된 SFT 샘플) 두 가지 측면을 모두 개선할 수 있습니다.
기초 모델에 좋은 사전 지식이 있는지 여부에 따라 기초/증류 모델을 선택하고 도메인을 선택하면 두 접근 방식 간의 1x1 비교에 영향을 미칩니다.