X (Twitter)

我觉得你可以通过从另一个模型中提取 8-16 个 SFT 样本，并让策略在强化学习期间根据其偏好选择一个样本来模仿（改进）这一点。如果从更大的模型中提取信息，速度会更快，信号强度也可能更高。

草图模型是一个较小的模型，规格解码技巧是为了提高速度。因此，你在两个方面都得到了改进——质量（选择更大的型号）和速度（提前收集 sft 样本）。

起草/蒸馏模型的选择以及根据训练的基础模型是否具有良好的先验知识而选择的领域，都会影响两种方法之间的任何一对一比较。

来自 tokenbender（@tokenbender）的推文线程