应该有人检查一下它是不是 V3.1 shell。 如果他们最终能够在 Ascend 芯片上训练 V3 规模的 MoE 模型,那意义重大。上次的机制假设是,某些 CANN 微优化会降低影响 MoE 路由的算子的精度。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月16日 16:29
应该有人检查一下它是不是 V3.1 shell。 如果他们最终能够在 Ascend 芯片上训练 V3 规模的 MoE 模型,那意义重大。上次的机制假设是,某些 CANN 微优化会降低影响 MoE 路由的算子的精度。