X (Twitter)

K2の考え方に関するKimi AMA: 1. 460万ドルの研修費用は公式の数字ではない 2. H800で訓練（H100は弱体化） 3. NoPE MLAを使用したKDA（キミデルタアテンション）ハイブリッドは、RoPEを使用したフルMLAよりも優れたパフォーマンスを発揮します。 4. Muon は 1T パラメータまで適切にスケーリングされます。「グリルを通過できない最適化ツールやアーキテクチャは数十あります。」 5. キミK2はビジョンを持っている 6. K2 Thinking は、既存の int4 推論 Marlin カーネルを活用しながら、非 Blackwell GPU との互換性を高めるためにネイティブ INT4 になっています。

- 「K3はどうですか？」 - 「サムの1兆ドル規模のデータセンターが建設される前に」😂 AMAリンク: https://t.co/6yZSsjQXvM

Yuchen Jin（@Yuchenj_UW）のスレッド

作者情報

スレッド内容