“MoE模型在世界知识任务上表现出色,但在困惑度固定的情况下,其推理能力与密集模型相当。” 直觉上这很有道理,但是,对于更细粒度的模态算子(MoE)来说,这种说法是否成立呢?推理本身就是稀疏的,你只需要组合一些低秩运算即可。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月9日 17:06
“MoE模型在世界知识任务上表现出色,但在困惑度固定的情况下,其推理能力与密集模型相当。” 直觉上这很有道理,但是,对于更细粒度的模态算子(MoE)来说,这种说法是否成立呢?推理本身就是稀疏的,你只需要组合一些低秩运算即可。