悄然出现:一个基于 Llama 3 训练的 Mamba-2 + MLA 混合模型。我们知道 GQA 到完整 MLA 的转换是可行的。Kimi 已经证明可以将 MLA 和线性注意力机制结合起来(尽管 KDA 比 Mamba2 更复杂),但他们是从零开始训练的。 这在技术上令人印象深刻。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月7日 06:37
悄然出现:一个基于 Llama 3 训练的 Mamba-2 + MLA 混合模型。我们知道 GQA 到完整 MLA 的转换是可行的。Kimi 已经证明可以将 MLA 和线性注意力机制结合起来(尽管 KDA 比 Mamba2 更复杂),但他们是从零开始训练的。 这在技术上令人印象深刻。