K2の考え方に関するKimi AMA: 1. 460万ドルの研修費用は公式の数字ではない 2. H800で訓練(H100は弱体化) 3. NoPE MLAを使用したKDA(キミデルタアテンション)ハイブリッドは、RoPEを使用したフルMLAよりも優れたパフォーマンスを発揮します。 4. Muon は 1T パラメータまで適切にスケーリングされます。「グリルを通過できない最適化ツールやアーキテクチャは数十あります。」 5. キミK2はビジョンを持っている 6. K2 Thinking は、既存の int4 推論 Marlin カーネルを活用しながら、非 Blackwell GPU との互換性を高めるためにネイティブ INT4 になっています。
- 「K3はどうですか?」 - 「サムの1兆ドル規模のデータセンターが建設される前に」😂 AMAリンク: https://t.co/6yZSsjQXvM
