X (Twitter)

這篇部落格寫的獎勵黑客問題是SFT與RL的限制所在三種訓練方法的對比： SFT（監督微調）採樣：❌ 離策略（教師的軌跡）獎勵：✅ 稠密（逐token）問題：學生狀態下的複合錯誤 RL（強化學習）採樣：✅ 在策略（學生的推出）獎勵：❌ 稀疏（僅最終結果）問題：每個episode 一個訊號，效率低如果使用在策略蒸餾，就會解決的更好一些採樣：✅ 在策略（學生的軌跡）獎勵：✅ 稠密（教師為每個token 評分）關於這個問題的更深入了解，推薦博傑的這篇文章： https://t.co/r9r14GGZ3u

来自 Yangyi（@Yangyixxxx）的推文线程

作者信息

线程正文