我认为我们尚未完全理解如此大规模的MoE(特别是采用先进的后DSMoE架构的MoE)的行为。但我们知道,即使总容量约为280亿,0.8%的扩展性也相当不错。而且,利用稀疏性进行更精细化处理之外的巧妙方法也成为可能。我认为在10T容量下达到1%的扩展性是*保守*的。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月24日 03:35
我认为我们尚未完全理解如此大规模的MoE(特别是采用先进的后DSMoE架构的MoE)的行为。但我们知道,即使总容量约为280亿,0.8%的扩展性也相当不错。而且,利用稀疏性进行更精细化处理之外的巧妙方法也成为可能。我认为在10T容量下达到1%的扩展性是*保守*的。