我傾向於認為,這些論文的動機之一就是要徹底擊敗DeepSeek的內在方法,迫使他們放棄這些方法。但DeepSeek內部卻暗自得意,或許是過於得意了。我懷疑他們寧願把GRPO徹底搞垮,也不願承認失敗。 不過,每個人都是贏家。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月9日 上午8:41
我傾向於認為,這些論文的動機之一就是要徹底擊敗DeepSeek的內在方法,迫使他們放棄這些方法。但DeepSeek內部卻暗自得意,或許是過於得意了。我懷疑他們寧願把GRPO徹底搞垮,也不願承認失敗。 不過,每個人都是贏家。