X (Twitter)

Kimi AMA談K2思維： 1. 460萬美元的培訓費用並非官方數據。 2. 使用 H800 訓練（削弱後的 H100） 3. 採用 NoPE MLA 的 KDA（Kimi Delta Attention）混合型產品性能優於採用 RoPE 的全 MLA 產品。 4. Muon演算法能夠很好地擴展到1T參數。 “有幾十種優化器和架構經不起這樣的考驗。” 5. Kimi K2 將擁有視力 6. K2 Thinking 原生支援 INT4，以便更能相容於非 Blackwell GPU，同時利用現有的 int4 推理 marlin 核心。

- “wen K3？” 「在山姆那價值萬億美元的資料中心建成之前」😂 AMA 連結：https://t.co/6yZSsjQXvM

來自 Yuchen Jin（@Yuchenj_UW）的推文串

作者資訊

推文串內容