被埋没:Nemotron 现在不仅仅是 Mamba2 的混合体,他们还使用了 LatentMoE。“通过将路由专家计算和全对全流量转移到 潜在空间,包括每位专家的重量负载和通信有效载荷,都减少了一个因子。 d/ℓ» 在意识形态上与MLA相似
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月15日 16:20
被埋没:Nemotron 现在不仅仅是 Mamba2 的混合体,他们还使用了 LatentMoE。“通过将路由专家计算和全对全流量转移到 潜在空间,包括每位专家的重量负载和通信有效载荷,都减少了一个因子。 d/ℓ» 在意识形态上与MLA相似