這篇部落格寫的獎勵黑客問題是SFT與RL的限制所在 三種訓練方法的對比: SFT(監督微調) 採樣:❌ 離策略(教師的軌跡) 獎勵:✅ 稠密(逐token) 問題:學生狀態下的複合錯誤 RL(強化學習) 採樣:✅ 在策略(學生的推出) 獎勵:❌ 稀疏(僅最終結果) 問題:每個episode 一個訊號,效率低 如果使用在策略蒸餾,就會解決的更好一些採樣:✅ 在策略(學生的軌跡) 獎勵:✅ 稠密(教師為每個token 評分) 關於這個問題的更深入了解,推薦博傑的這篇文章: https://t.co/r9r14GGZ3u
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。