我预计他们会:1)像ZAYA那样,在压缩和潜在计算方面进行更深入的研究;2)显著提高稀疏性,或许会完全放弃模态矩阵(MoE),直接使用小世界电路,或者探索类似UT(子系统)的方法。如果V4版本没有实现,那么会在后续论文中实现。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月17日 06:25
我预计他们会:1)像ZAYA那样,在压缩和潜在计算方面进行更深入的研究;2)显著提高稀疏性,或许会完全放弃模态矩阵(MoE),直接使用小世界电路,或者探索类似UT(子系统)的方法。如果V4版本没有实现,那么会在后续论文中实现。