應該有人檢查一下它是不是 V3.1 shell。 如果他們最終能夠在 Ascend 晶片上訓練 V3 規模的 MoE 模型,那意義重大。上次的機制假設是,某些 CANN 微優化會降低影響 MoE 路由的算子的精度。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月16日 下午4:29
應該有人檢查一下它是不是 V3.1 shell。 如果他們最終能夠在 Ascend 晶片上訓練 V3 規模的 MoE 模型,那意義重大。上次的機制假設是,某些 CANN 微優化會降低影響 MoE 路由的算子的精度。