我預期他們會:1)像ZAYA那樣,在壓縮和潛在計算方面進行更深入的研究;2)顯著提高稀疏性,或許會完全放棄模態矩陣(MoE),直接使用小世界電路,或者探索類似UT(子系統)的方法。如果V4版本沒有實現,那麼就會在後續論文中實現。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月17日 清晨6:25
我預期他們會:1)像ZAYA那樣,在壓縮和潛在計算方面進行更深入的研究;2)顯著提高稀疏性,或許會完全放棄模態矩陣(MoE),直接使用小世界電路,或者探索類似UT(子系統)的方法。如果V4版本沒有實現,那麼就會在後續論文中實現。