非常激進且可能非常愚蠢的預感: 它是 Flash 3,總容量為 1.2T,其中 12B 為有效儲存容量。 專業版的價格在 30-3200 美元之間。 他們的系統允許這樣做,谷歌在節省成本方面無人能及,我們(感謝 @AntLingAGI)知道,超過 99% 的稀疏性繼續帶來效率提升。
我還預測,粒度具有複雜的擴展規律,取決於特定的架構和訓練方法;而且規模更大的模型(螞蟻模型最終處理的資料量為 280 億)具有比我們目前使用的更高的最優粒度。
不過仔細想想,如果我設想的 Flash 模式要達到 16/3200 的專家級精度,那麼這些專家級精度就得非常低才行!我覺得這並非最佳方案。 另一方面:這篇關於迷因的論文,以及Qwen3-Next已經聘用瞭如此規模的專家這一事實(如果我的計算沒錯的話)。


