這不僅僅是表面看起來那麼簡單:KIMI-2-Thinking QAT。它也與支援更多/中國產人工智慧晶片有關。 強烈建議閱讀以下這篇精彩的短文,了解 Kimi(Moonshot AI)為何選擇 QAT(量化感知訓練)。以下是我的閱讀心得。 TL:DR:它不僅可以降低推理延遲和記憶體受限場景(MoE 與 Kimi-2 的稀疏規模就屬於這種情況)的記憶體需求,還能將 RL 訓練速度提高 10-20%;此外,由於 INT4 格式,它還支援華為 Cambricon 和 Ascend 等替代硬體生態系統。 部落格摘錄: =================== 1)為什麼是INT4而不是MXFP4? Kimi 選擇 INT4 而不是「更高級」的 MXFP4/NVFP4,是為了更好地支援非 Blackwell GPU,並且有強大的現有核心支援(例如 Marlin)。 2) Kimi-2-Thinking 的權重為 4 位,活化值為 16 位(表示為 W4A16)。 他們進一步透露,W4A8 甚至 W4A4 也即將問世。隨著搭載 FP4 原生運算子的新晶片陸續推出,Kimi 的量化路徑也將繼續演進… 中國製造的晶片支援INT4: =================== Cambricon GPU 明確支援 INT4 量化,包括 AI 推理工作負載,這在 MLU270、MLU370-X8 和更新的晶片等多個型號中都有體現,最近發布的開源版本也集成了 INT4,用於 GLM-4.6 等大型模型。 華為昇騰NPU也支援INT4量化進行推理,這一點已透過與GEMM和量化模型部署相關的文件和內核版本得到證實。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。