所以,就基準測試而言,這大概相當於 V3.2 版本的模型。參數量減半,有效令牌數可能翻了一番(23T@Muon)。各大實驗室都在積極採用這種大規模強化學習方法。 下一代基地將再次展現出有趣的差異。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月22日 晚上10:01
所以,就基準測試而言,這大概相當於 V3.2 版本的模型。參數量減半,有效令牌數可能翻了一番(23T@Muon)。各大實驗室都在積極採用這種大規模強化學習方法。 下一代基地將再次展現出有趣的差異。