说到这里,我怀疑V4版本会有很大的不同。我们目前所知的DS-MoE方案已经用了两年了;他们只是扩大了规模,两次调整了开发方向(MHA=>MLA=>DSA原型),并对MTP、路由和负载均衡进行了微调。他们绝对有能力做出更大的改变。
我预计他们会:1)像ZAYA那样,在压缩和潜在计算方面进行更深入的研究;2)显著提高稀疏性,或许会完全放弃模态矩阵(MoE),直接使用小世界电路,或者探索类似UT(子系统)的方法。如果V4版本没有实现,那么会在后续论文中实现。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年12月17日 06:23
说到这里,我怀疑V4版本会有很大的不同。我们目前所知的DS-MoE方案已经用了两年了;他们只是扩大了规模,两次调整了开发方向(MHA=>MLA=>DSA原型),并对MTP、路由和负载均衡进行了微调。他们绝对有能力做出更大的改变。
我预计他们会:1)像ZAYA那样,在压缩和潜在计算方面进行更深入的研究;2)显著提高稀疏性,或许会完全放弃模态矩阵(MoE),直接使用小世界电路,或者探索类似UT(子系统)的方法。如果V4版本没有实现,那么会在后续论文中实现。