忘了說最重要的一點:在 DS-Math 出現之前,只有 Frontier 能做強化學習,因為 PPO 太麻煩,而 DPO 的表現又不夠好。諷刺的是,GRPO 既是他們最不起眼的貢獻,也是影響最大的貢獻。 此外:在 R1 之前,只有 Frontier 在基於結果的強化學習方面做得好。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月29日 凌晨3:17
忘了說最重要的一點:在 DS-Math 出現之前,只有 Frontier 能做強化學習,因為 PPO 太麻煩,而 DPO 的表現又不夠好。諷刺的是,GRPO 既是他們最不起眼的貢獻,也是影響最大的貢獻。 此外:在 R1 之前,只有 Frontier 在基於結果的強化學習方面做得好。