Kimi AMA談K2思維: 1. 460萬美元的培訓費用並非官方數據。 2. 使用 H800 訓練(削弱後的 H100) 3. 採用 NoPE MLA 的 KDA(Kimi Delta Attention)混合型產品性能優於採用 RoPE 的全 MLA 產品。 4. Muon演算法能夠很好地擴展到1T參數。 “有幾十種優化器和架構經不起這樣的考驗。” 5. Kimi K2 將擁有視力 6. K2 Thinking 原生支援 INT4,以便更能相容於非 Blackwell GPU,同時利用現有的 int4 推理 marlin 核心。
- “wen K3?” 「在山姆那價值萬億美元的資料中心建成之前」😂 AMA 連結:https://t.co/6yZSsjQXvM
