这简直是胡说八道。“最终训练运行仅占研发总计算量的 1%”这种说法,我猜是对 GDM 实践的一种奇怪的、带有误导性的概括。没人会进行全规模的消融实验,而且对于 GPU 资源匮乏的实验室来说,这需要*数年*的时间。K2 本身就是一个性能更强的 V3 版本。 石头,玻璃房子。我们还是别这样吧。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月8日 15:08
这简直是胡说八道。“最终训练运行仅占研发总计算量的 1%”这种说法,我猜是对 GDM 实践的一种奇怪的、带有误导性的概括。没人会进行全规模的消融实验,而且对于 GPU 资源匮乏的实验室来说,这需要*数年*的时间。K2 本身就是一个性能更强的 V3 版本。 石头,玻璃房子。我们还是别这样吧。