Kimi AMA谈K2思维: 1. 460万美元的培训费用并非官方数据。 2. 使用 H800 训练(削弱后的 H100) 3. 采用 NoPE MLA 的 KDA(Kimi Delta Attention)混合型产品性能优于采用 RoPE 的全 MLA 产品。 4. Muon算法能够很好地扩展到1T参数。“有几十种优化器和架构经不起这样的考验。” 5. Kimi K2 将拥有视力 6. K2 Thinking 原生支持 INT4,以便更好地兼容非 Blackwell GPU,同时利用现有的 int4 推理 marlin 内核。
- “wen K3?” “在山姆那价值万亿美元的数据中心建成之前”😂 AMA 链接:https://t.co/6yZSsjQXvM
