順便一提,我剛剛注意到 DeepSeek 的「由自我原則性批評調整 (SPCT) 賦能的生成式獎勵模型 (GRM)」檢查點在某個時候發布了。 這仍然使用Gemmas和V2-lite + V2.5作為教學模式。想像一下,如果基於V3.2,他們的GRM會有多麼出色。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月3日 清晨6:10
順便一提,我剛剛注意到 DeepSeek 的「由自我原則性批評調整 (SPCT) 賦能的生成式獎勵模型 (GRM)」檢查點在某個時候發布了。 這仍然使用Gemmas和V2-lite + V2.5作為教學模式。想像一下,如果基於V3.2,他們的GRM會有多麼出色。