不过仔细想想,如果我设想的 Flash 模式要达到 16/3200 的专家级精度,那这些专家级精度就得非常低才行!我觉得这并非最佳方案。 另一方面:这篇关于模因的论文,以及Qwen3-Next已经聘用了如此规模的专家这一事实(如果我的计算没错的话)。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月5日 20:31
不过仔细想想,如果我设想的 Flash 模式要达到 16/3200 的专家级精度,那这些专家级精度就得非常低才行!我觉得这并非最佳方案。 另一方面:这篇关于模因的论文,以及Qwen3-Next已经聘用了如此规模的专家这一事实(如果我的计算没错的话)。