Deepseekを退社後、Xiaomiに入社した羅富里氏もTwitterアカウントを登録しており、彼女が新モデルの開発を主導していることを示唆している。 昨夜XiaomiがリリースしたMiMo-V2-Flashモデルの技術的詳細を簡単に紹介します。 アーキテクチャ:ハイブリッドSWA(Hybrid Weighted Attention)を採用しています。これは、ロングコンテキスト推論において他の線形アテンション方式よりも優れた性能を発揮し、固定KVキャッシュは現在のインフラストラクチャに適しています。最適なウィンドウサイズは128です。512ではパフォーマンスが低下します。「シンク値」は保持する必要があり、省略することはできません。 MTP(マルチトークン予測):効率的な強化学習に不可欠です。最初の層以降の調整を最小限にすることで、高い受理長を実現できます。3層MTPは、受理長が3以上になり、エンコードタスクの速度が約2.5倍向上します。これにより、小バッチのオンポリシー強化学習において、ロングテールサンプルによって発生するGPUアイドル時間の問題を解決します。時間的制約のためこの強化学習ループには含まれていませんが、非常に適しており、3層MTPはオープンソースであるため、コミュニティによる開発が容易です。 MOPD後学習:Thinking MachineのOn-Policy Distillationを用いて複数のRLモデルを統合することで、大幅な効率向上を実現します。標準的なSFT+RLプロセスと比較して、計算コストは50分の1以下に削減され、教師モデルの性能と同等の性能を維持しつつ、「生徒が自己強化してより強力な教師になる」という進化の道筋を明らかにします。 実用的なエンジニアリングと生産ラインへの適合性を重視しています。ハイブリッドSWA + 固定KVキャッシュは、ロングコンテキストとデプロイメントの効率を向上させます。MTPは、トレーニングと推論の並列化の利点をもたらします。MOPDは、極めて低い計算能力でRL機能を複製・統合します。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
