被埋沒:Nemotron 現在不僅僅是 Mamba2 的混合體,他們還使用了 LatentMoE。 「透過將路由專家計算和全對全流量轉移到 潛在空間,包括每位專家的重量負載和通訊有效載荷,都減少了一個因子。 d/ℓ» 在意識形態上與MLA相似
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月15日 下午4:20
被埋沒:Nemotron 現在不僅僅是 Mamba2 的混合體,他們還使用了 LatentMoE。 「透過將路由專家計算和全對全流量轉移到 潛在空間,包括每位專家的重量負載和通訊有效載荷,都減少了一個因子。 d/ℓ» 在意識形態上與MLA相似