X (Twitter)

Kimi AMA谈K2思维： 1. 460万美元的培训费用并非官方数据。 2. 使用 H800 训练（削弱后的 H100） 3. 采用 NoPE MLA 的 KDA（Kimi Delta Attention）混合型产品性能优于采用 RoPE 的全 MLA 产品。 4. Muon算法能够很好地扩展到1T参数。“有几十种优化器和架构经不起这样的考验。” 5. Kimi K2 将拥有视力 6. K2 Thinking 原生支持 INT4，以便更好地兼容非 Blackwell GPU，同时利用现有的 int4 推理 marlin 内核。

- “wen K3？” “在山姆那价值万亿美元的数据中心建成之前”😂 AMA 链接：https://t.co/6yZSsjQXvM

来自 Yuchen Jin（@Yuchenj_UW）的推文线程

作者信息

线程正文