X (Twitter)

非常激进且可能非常愚蠢的预感：它是 Flash 3，总容量为 1.2T，其中 12B 为有效存储容量。专业版的价格在 30-3200 美元之间。他们的系统允许这样做，谷歌在节约成本方面无人能及，我们（感谢 @AntLingAGI）知道，超过 99% 的稀疏性继续带来效率提升。

我还预测，粒度具有复杂的扩展规律，取决于具体的架构和训练方法；而且规模更大的模型（蚂蚁模型最终处理的数据量为 280 亿）具有比我们目前使用的更高的最优粒度。

不过仔细想想，如果我设想的 Flash 模式要达到 16/3200 的专家级精度，那这些专家级精度就得非常低才行！我觉得这并非最佳方案。另一方面：这篇关于模因的论文，以及Qwen3-Next已经聘用了如此规模的专家这一事实（如果我的计算没错的话）。

来自 Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)（@teortaxesTex）的推文线程