这不仅仅是表面看起来那么简单:KIMI-2-Thinking QAT。它还与支持更多/中国产人工智能芯片有关。 强烈推荐阅读下面这篇精彩的短文,了解 Kimi(Moonshot AI)为何选择 QAT(量化感知训练)。以下是我的阅读心得。 TL:DR:它不仅可以降低推理延迟和内存受限场景(MoE 与 Kimi-2 的稀疏规模就属于这种情况)的内存需求,还能将 RL 训练速度提高 10-20%;此外,由于 INT4 格式,它还支持华为 Cambricon 和 Ascend 等替代硬件生态系统。 博客摘录: ================= 1)为什么是INT4而不是MXFP4? Kimi 选择 INT4 而不是“更高级”的 MXFP4/NVFP4,是为了更好地支持非 Blackwell GPU,并且有强大的现有内核支持(例如 Marlin)。 2) Kimi-2-Thinking 的权重为 4 位,激活值为 16 位(表示为 W4A16)。 他们进一步透露,W4A8 甚至 W4A4 也即将问世。随着搭载 FP4 原生运算符的新芯片陆续推出,Kimi 的量化路径也将继续演进…… 中国制造的芯片支持INT4: ================= Cambricon GPU 明确支持 INT4 量化,包括 AI 推理工作负载,这在 MLU270、MLU370-X8 和更新的芯片等多个型号中都有体现,最近发布的开源版本也集成了 INT4,用于 GLM-4.6 等大型模型。 华为昇腾NPU也支持INT4量化进行推理,这一点已通过与GEMM和量化模型部署相关的文档和内核版本得到证实。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。