说实话,我认为他们如此忠于GRPO很大程度上是因为他们投入了大量资源来修复和理解它。他们愿意为了在新数据上实现更短的迭代周期而付出代价,例如长度偏差。如果你不是DeepSeek,或许你可以直接跳过GRPO。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月1日 21:20
说实话,我认为他们如此忠于GRPO很大程度上是因为他们投入了大量资源来修复和理解它。他们愿意为了在新数据上实现更短的迭代周期而付出代价,例如长度偏差。如果你不是DeepSeek,或许你可以直接跳过GRPO。