X (Twitter)

我还预测，粒度具有复杂的扩展规律，取决于具体的架构和训练方法；而且规模更大的模型（蚂蚁模型最终处理的数据量为 280 亿）具有比我们目前使用的更高的最优粒度。

不过仔细想想，如果我设想的 Flash 模式要达到 16/3200 的专家级精度，那这些专家级精度就得非常低才行！我觉得这并非最佳方案。另一方面：这篇关于模因的论文，以及Qwen3-Next已经聘用了如此规模的专家这一事实（如果我的计算没错的话）。

来自 Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)（@teortaxesTex）的推文线程