別のモデルから 8 ~ 16 個の sft サンプルを抽出し、RL 中にポリシーが好みに基づいて 1 つを選択できるようにすることで、これを模倣 (改善) できると思います。 より大きなモデルから抽出する場合、これはこれよりもさらに高速で、おそらく信号も高くなります。
製図モデルは小型モデルであり、スペックデコードトリックは速度を向上させるためのものです。 そのため、品質 (より大きなモデルの選択) と速度 (事前に収集された sft サンプル) の両方の側面が向上します。
ドラフト/蒸留モデルの選択と、トレーニングされるベースモデルが適切な事前分布を持つかどうかに基づいて選択されるドメインは、ここでの 2 つのアプローチ間の 1x1 比較に影響します。