昨天在 #NeurIPS2025 上听到太多关于 DeepSeek R1 的“强化学习”与 SFT 的错误观点(恕我直言)!🤦♂️ R1 使用的退化 MDP 将验证者的奖励平均分配给所有中间代币和最终代币,因此 R1 的强化学习实际上是 SFT 的一种过滤/迭代形式!欢迎周日来 LAW 和 ForLM 工作坊与我们交流……👇
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月5日 14:29
昨天在 #NeurIPS2025 上听到太多关于 DeepSeek R1 的“强化学习”与 SFT 的错误观点(恕我直言)!🤦♂️ R1 使用的退化 MDP 将验证者的奖励平均分配给所有中间代币和最终代币,因此 R1 的强化学习实际上是 SFT 的一种过滤/迭代形式!欢迎周日来 LAW 和 ForLM 工作坊与我们交流……👇