所以,就基准测试而言,这大概相当于 V3.2 版本的模型。参数量减半,有效令牌数可能翻了一番(23T@Muon)。各大实验室都在积极采用这种大规模强化学习方法。 下一代基地将再次展现出有趣的差异。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月22日 22:01
所以,就基准测试而言,这大概相当于 V3.2 版本的模型。参数量减半,有效令牌数可能翻了一番(23T@Muon)。各大实验室都在积极采用这种大规模强化学习方法。 下一代基地将再次展现出有趣的差异。