X (Twitter)

我覺得你可以透過從另一個模型中提取 8-16 個 SFT 樣本，並讓策略在強化學習期間根據其偏好選擇一個樣本來模仿（改進）這一點。如果從更大的模型中提取訊息，速度會更快，訊號強度也可能更高。

草圖模型是一個較小的模型，規格解碼技巧是為了提高速度。因此，你在兩個方面都得到了改進——質量（選擇更大的型號）和速度（提前收集 sft 樣本）。

起草/蒸餾模型的選擇以及根據訓練的基礎模型是否具有良好的先驗知識而選擇的領域，都會影響兩種方法之間的任何一對一比較。

來自 tokenbender（@tokenbender）的推文串