見た目以上のものですね :KIMI-2-Thinking QAT。より多くの中国製AIチップをサポートすることにも関係しています。 Kimi(Moonshot AI)がQAT(量子化認識トレーニング)を選択した理由について解説した、下記の素晴らしい短いブログ記事をぜひお読みください。私の解釈はこうです。 TL:DR: メモリ制限シナリオ (Kimi-2 のスパース スケールを使用した MoE がこれに該当) での推論のレイテンシとメモリ要件を削減し、RL トレーニングを 10 ~ 20% 高速化するだけでなく、INT4 形式により、Cambricon や Huawei の Ascend などの代替ハードウェア エコシステムも有効になります。 ブログからの引用: ================= 1) なぜ MXFP4 ではなく INT4 なのですか? Kimi は、強力な既存のカーネル サポート (例: Marlin) を備えた非 Blackwell GPU をより適切にサポートするために、「より高級な」MXFP4/NVFP4 ではなく INT4 を選択しました。 2) Kimi-2-Thinkingの重みは4ビット、活性化は16ビット(W4A16と表記) さらにW4A8、さらにはW4A4も間もなく登場すると彼らは述べています。FP4ネイティブ演算子を搭載した新しいチップが登場するにつれて、Kimiの量子化パスは進化し続けるでしょう。 中国製チップのINT4サポート: ================= Cambricon GPU は、MLU270、MLU370-X8、および新しいチップなどのいくつかのモデル、および GLM-4.6 などの大規模モデル向けの INT4 統合を備えた最近のオープンソース リリースに見られるように、AI 推論ワークロードを含む INT4 量子化を明示的にサポートしています。 Huawei Ascend NPU は、GEMM および量子化モデルの展開に関連するドキュメントとカーネル リリースによって確認されているように、推論用の INT4 量子化もサポートしています。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。