我还预测,粒度具有复杂的扩展规律,取决于具体的架构和训练方法;而且规模更大的模型(蚂蚁模型最终处理的数据量为 280 亿)具有比我们目前使用的更高的最优粒度。
不过仔细想想,如果我设想的 Flash 模式要达到 16/3200 的专家级精度,那这些专家级精度就得非常低才行!我觉得这并非最佳方案。 另一方面:这篇关于模因的论文,以及Qwen3-Next已经聘用了如此规模的专家这一事实(如果我的计算没错的话)。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月5日 20:17
我还预测,粒度具有复杂的扩展规律,取决于具体的架构和训练方法;而且规模更大的模型(蚂蚁模型最终处理的数据量为 280 亿)具有比我们目前使用的更高的最优粒度。
不过仔细想想,如果我设想的 Flash 模式要达到 16/3200 的专家级精度,那这些专家级精度就得非常低才行!我觉得这并非最佳方案。 另一方面:这篇关于模因的论文,以及Qwen3-Next已经聘用了如此规模的专家这一事实(如果我的计算没错的话)。