所以 對品質一般的資料進行 SFT,然後只對關心的指標進行 RL,與一開始就對高品質資料進行 SFT 相比,哪個更糟糕? 思考這樣一種情況:你想訓練任務的結構,但又不想產生高品質的「實質內容」。
我懷疑,你為了糾正錯誤數據的影響而進行的強化學習(RL)力度不夠,不足以真正抵消其影響。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月23日 晚上8:14
所以 對品質一般的資料進行 SFT,然後只對關心的指標進行 RL,與一開始就對高品質資料進行 SFT 相比,哪個更糟糕? 思考這樣一種情況:你想訓練任務的結構,但又不想產生高品質的「實質內容」。
我懷疑,你為了糾正錯誤數據的影響而進行的強化學習(RL)力度不夠,不足以真正抵消其影響。