說到這裡,我懷疑V4版本會有很大的不同。我們目前所知的DS-MoE方案已經花了兩年了;他們只是擴大了規模,兩次調整了開發方向(MHA=>MLA=>DSA原型),並對MTP、路由和負載平衡進行了微調。他們絕對有能力做出更大的改變。
我預期他們會:1)像ZAYA那樣,在壓縮和潛在計算方面進行更深入的研究;2)顯著提高稀疏性,或許會完全放棄模態矩陣(MoE),直接使用小世界電路,或者探索類似UT(子系統)的方法。如果V4版本沒有實現,那麼就會在後續論文中實現。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年12月17日 清晨6:23
說到這裡,我懷疑V4版本會有很大的不同。我們目前所知的DS-MoE方案已經花了兩年了;他們只是擴大了規模,兩次調整了開發方向(MHA=>MLA=>DSA原型),並對MTP、路由和負載平衡進行了微調。他們絕對有能力做出更大的改變。
我預期他們會:1)像ZAYA那樣,在壓縮和潛在計算方面進行更深入的研究;2)顯著提高稀疏性,或許會完全放棄模態矩陣(MoE),直接使用小世界電路,或者探索類似UT(子系統)的方法。如果V4版本沒有實現,那麼就會在後續論文中實現。