我認為我們尚未完全理解如此大規模的MoE(特別是採用先進的後DSMoE架構的MoE)的行為。但我們知道,即使總容量約280億,0.8%的擴充性也相當不錯。而且,利用稀疏性進行更精細化處理之外的巧妙方法也成為可能。我認為在10T容量下達到1%的擴展性是*保守*的。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月24日 凌晨3:35
我認為我們尚未完全理解如此大規模的MoE(特別是採用先進的後DSMoE架構的MoE)的行為。但我們知道,即使總容量約280億,0.8%的擴充性也相當不錯。而且,利用稀疏性進行更精細化處理之外的巧妙方法也成為可能。我認為在10T容量下達到1%的擴展性是*保守*的。