“MoE模型在世界知識任務上表現出色,但在困惑度固定的情況下,其推理能力與密集模型相當。” 直覺上這很有道理,但是,對於更細緻的模態算子(MoE)來說,這種說法是否成立呢?推理本身就是稀疏的,你只需要組合一些低秩運算即可。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月9日 下午5:06
“MoE模型在世界知識任務上表現出色,但在困惑度固定的情況下,其推理能力與密集模型相當。” 直覺上這很有道理,但是,對於更細緻的模態算子(MoE)來說,這種說法是否成立呢?推理本身就是稀疏的,你只需要組合一些低秩運算即可。