虽然有点晚了,但我读了 DeepSeek Math V2 的论文。 这是第一个也是唯一一个利用大型语言模型复制闭源(即 IMO Gold)所取得的成功的作品。 这里没有什么新东西。 如果要说最突出的地方,那就是: 简单来说,奖励答案并不能保证推理过程的正确性。 因此,我们使用来自 17.5k 个数据集的专家评分数据训练了一个验证器。 我们训练了一个元验证器,以进一步确保验证器不会给出错误的评分。 实际上它就像听起来那么简单,我原本还以为开源的IMO黄金模型会使用更复杂的东西呢。 我有一些个人理论想看看能否得到验证或被推翻,但我想当我们转向具有这种能力的通用模型时,我们就能看到这些理论了。 在此之前,它就像一颗指路明灯,采用相当简单但计算量大、依赖数据整理的方法,为我们带来了去年之前模型还被认为极其困难的东西。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
