從Deepseek 離職之後加入小米的羅福莉也註冊了推特,看來新模型是她主導的 介紹了一下昨晚小米發表的MiMo‑V2‑Flash 模式技術細節 架構:採用Hybrid SWA(混合可加權注意力)。在長上下文推理上優於其他線性注意力方案,且固定KV cache 更適合當前基礎設施。視窗大小以128 最佳;512 反而降性能;「sink values」必須保留,不能省略。 MTP(多token 預測):對高效RL 很關鍵。除首層外只需很少微調即可拿到較高accept length。 3 層MTP在編碼任務上實現>3 的accept length 和約2.5×速度提升,能解決小批量On‑Policy RL 長尾樣本導致的GPU 空閒問題。本次因時間未併入RL 迴路,但非常契合;3 層MTP已開源,便於社區開發。 MOPD 後訓練:採用Thinking Machine 的On‑Policy Distillation,將多個RL 模型融合,效率效益顯著。相較標準SFT+RL 流程,計算量降到不足1/50 仍可符合教師模型表現,並顯露出「學生自我強化為更強教師」的演進路徑。 強調務實工程與產線友善。 Hybrid SWA + 固定KV cache 提高長上下文與部署效率;MTP 帶來訓練/推理並行收益;MOPD 以極低算力復刻/融合RL 能力。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
