忘了说最重要的一点:在 DS-Math 出现之前,只有 Frontier 能做强化学习,因为 PPO 太麻烦,而 DPO 的性能又不够好。讽刺的是,GRPO 既是他们最不起眼的贡献,也是影响最大的贡献。 此外:在 R1 之前,只有 Frontier 在基于结果的强化学习方面做得好。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月29日 03:17
忘了说最重要的一点:在 DS-Math 出现之前,只有 Frontier 能做强化学习,因为 PPO 太麻烦,而 DPO 的性能又不够好。讽刺的是,GRPO 既是他们最不起眼的贡献,也是影响最大的贡献。 此外:在 R1 之前,只有 Frontier 在基于结果的强化学习方面做得好。