昨天在 #NeurIPS2025 上聽到太多關於 DeepSeek R1 的“強化學習”與 SFT 的錯誤觀點(恕我直言)! 🤦♂️ R1 所使用的退化 MDP 將驗證者的獎勵平均分配給所有中間代幣和最終代幣,因此 R1 的強化學習實際上是 SFT 的過濾/迭代形式!歡迎週日來 LAW 和 ForLM 工作坊與我們交流…👇
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月5日 下午2:29
昨天在 #NeurIPS2025 上聽到太多關於 DeepSeek R1 的“強化學習”與 SFT 的錯誤觀點(恕我直言)! 🤦♂️ R1 所使用的退化 MDP 將驗證者的獎勵平均分配給所有中間代幣和最終代幣,因此 R1 的強化學習實際上是 SFT 的過濾/迭代形式!歡迎週日來 LAW 和 ForLM 工作坊與我們交流…👇