X (Twitter)

非常激進且可能非常愚蠢的預感：它是 Flash 3，總容量為 1.2T，其中 12B 為有效儲存容量。專業版的價格在 30-3200 美元之間。他們的系統允許這樣做，谷歌在節省成本方面無人能及，我們（感謝 @AntLingAGI）知道，超過 99% 的稀疏性繼續帶來效率提升。

我還預測，粒度具有複雜的擴展規律，取決於特定的架構和訓練方法；而且規模更大的模型（螞蟻模型最終處理的資料量為 280 億）具有比我們目前使用的更高的最優粒度。

不過仔細想想，如果我設想的 Flash 模式要達到 16/3200 的專家級精度，那麼這些專家級精度就得非常低才行！我覺得這並非最佳方案。另一方面：這篇關於迷因的論文，以及Qwen3-Next已經聘用瞭如此規模的專家這一事實（如果我的計算沒錯的話）。

來自 Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)（@teortaxesTex）的推文串