非常激进且可能非常愚蠢的预感: 它是 Flash 3,总容量为 1.2T,其中 12B 为有效存储容量。 专业版的价格在 30-3200 美元之间。 他们的系统允许这样做,谷歌在节约成本方面无人能及,我们(感谢 @AntLingAGI)知道,超过 99% 的稀疏性继续带来效率提升。
我还预测,粒度具有复杂的扩展规律,取决于具体的架构和训练方法;而且规模更大的模型(蚂蚁模型最终处理的数据量为 280 亿)具有比我们目前使用的更高的最优粒度。
不过仔细想想,如果我设想的 Flash 模式要达到 16/3200 的专家级精度,那这些专家级精度就得非常低才行!我觉得这并非最佳方案。 另一方面:这篇关于模因的论文,以及Qwen3-Next已经聘用了如此规模的专家这一事实(如果我的计算没错的话)。


