說實話,我認為他們如此忠於GRPO很大程度上是因為他們投入了大量資源來修復和理解它。他們願意為了在新資料上實現更短的迭代週期而付出代價,例如長度偏差。如果你不是DeepSeek,或許你可以直接跳過GRPO。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月1日 晚上9:20
說實話,我認為他們如此忠於GRPO很大程度上是因為他們投入了大量資源來修復和理解它。他們願意為了在新資料上實現更短的迭代週期而付出代價,例如長度偏差。如果你不是DeepSeek,或許你可以直接跳過GRPO。