所以是 DeepSeek-Math-V2。 它的副标题可以是:“如何训练更好的验证器?”,而其大部分内容其实就是……更好的数据处理和合成流程(即使所有模型都是用强化学习训练的)。 DeepSeek 进一步偏离了 R0 最初所承诺的自发性自我验证,原因很简单,这种方法不具备可扩展性:曲折的推理最终得出正确答案仍然非常脆弱,容易失败。 该项目始于人工标注,但标注者均为高级专家,这本身就代表着整个行业的变革,即我们力求规模化/自动化我们所能找到的最佳数据质量流程。此外,该流程还利用了我们在构建 SYNTH 数学管道时发现的一个现象:人类(以及经过适当引导的模型)无需参考最终答案即可识别出推理过程存在缺陷的情况。 该论文还提到了一种可能在合成流水线中得到广泛应用的技术:“元验证器”,其本质上是对评估过程本身进行评估。因为即使是验证器也可能被奖励作弊:“在训练过程中评估有缺陷的证明(其中 si < 1)时,验证器可以通过预测正确分数来获得全部奖励,同时却臆想出一些根本不存在的问题。” 首先在合成草稿中进行人工标注,然后这些标注反过来用于构建评估器,评估器会递归地生成更好的证明和越来越好的求解路径。总的来说,这个过程形成了一个正反馈循环:“证明验证器和生成器形成了一个协同循环:验证器改进生成器,而随着生成器的改进,它会生成新的证明,从而挑战验证器当前的水平。” 所有验证器/元验证器/最终模型的训练都采用强化学习(RL)完成(对于非常大的模型来说,这很合理,因为SFT/midtrain可能会造成相当大的破坏)。然而,即便如此,RLVR日益增长的复杂性(无法局限于简单的形式化“验证”)仍然需要开发集成化、日益自给自足的合成流程。 数学证明者再次将LLM研究带到了真正的前沿,并带来了富有创意和优雅的解决方案,这些解决方案很可能在未来几个月内滋养整个领域。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。