X (Twitter)

虽然有点晚了，但我读了 DeepSeek Math V2 的论文。这是第一个也是唯一一个利用大型语言模型复制闭源（即 IMO Gold）所取得的成功的作品。这里没有什么新东西。如果要说最突出的地方，那就是：简单来说，奖励答案并不能保证推理过程的正确性。因此，我们使用来自 17.5k 个数据集的专家评分数据训练了一个验证器。我们训练了一个元验证器，以进一步确保验证器不会给出错误的评分。实际上它就像听起来那么简单，我原本还以为开源的IMO黄金模型会使用更复杂的东西呢。我有一些个人理论想看看能否得到验证或被推翻，但我想当我们转向具有这种能力的通用模型时，我们就能看到这些理论了。在此之前，它就像一颗指路明灯，采用相当简单但计算量大、依赖数据整理的方法，为我们带来了去年之前模型还被认为极其困难的东西。

来自 tokenbender（@tokenbender）的推文线程

作者信息

线程正文