X (Twitter)

所以是 DeepSeek-Math-V2。它的副标题可以是：“如何训练更好的验证器？”，而其大部分内容其实就是……更好的数据处理和合成流程（即使所有模型都是用强化学习训练的）。 DeepSeek 进一步偏离了 R0 最初所承诺的自发性自我验证，原因很简单，这种方法不具备可扩展性：曲折的推理最终得出正确答案仍然非常脆弱，容易失败。该项目始于人工标注，但标注者均为高级专家，这本身就代表着整个行业的变革，即我们力求规模化/自动化我们所能找到的最佳数据质量流程。此外，该流程还利用了我们在构建 SYNTH 数学管道时发现的一个现象：人类（以及经过适当引导的模型）无需参考最终答案即可识别出推理过程存在缺陷的情况。该论文还提到了一种可能在合成流水线中得到广泛应用的技术：“元验证器”，其本质上是对评估过程本身进行评估。因为即使是验证器也可能被奖励作弊：“在训练过程中评估有缺陷的证明（其中 si < 1）时，验证器可以通过预测正确分数来获得全部奖励，同时却臆想出一些根本不存在的问题。” 首先在合成草稿中进行人工标注，然后这些标注反过来用于构建评估器，评估器会递归地生成更好的证明和越来越好的求解路径。总的来说，这个过程形成了一个正反馈循环：“证明验证器和生成器形成了一个协同循环：验证器改进生成器，而随着生成器的改进，它会生成新的证明，从而挑战验证器当前的水平。” 所有验证器/元验证器/最终模型的训练都采用强化学习（RL）完成（对于非常大的模型来说，这很合理，因为SFT/midtrain可能会造成相当大的破坏）。然而，即便如此，RLVR日益增长的复杂性（无法局限于简单的形式化“验证”）仍然需要开发集成化、日益自给自足的合成流程。数学证明者再次将LLM研究带到了真正的前沿，并带来了富有创意和优雅的解决方案，这些解决方案很可能在未来几个月内滋养整个领域。

来自 Alexander Doria（@Dorialexander）的推文线程

作者信息

线程正文