昨晚 Kimi K2 的训练团队在 Reddit LocalLLaMA 频道做了一次 AMA
看了一下海外用户对于 K2-Thinking 的评价和国内在我评论区的评价还是挺不一样的。
海外用户对价格相对没那么敏感,当然也提到了按调用次数而不是按 Token 这样有些问题,总体来说还是跟关注技术和质量,当然也跟 LocalLLaMA 这个频道的属性有关系。
他们昨晚也在 AMA 里面回答了很多问题,我整理了一些有信息量的:
----------------------------
KDA 会用在下一代旗舰模型 Kimi 吗?它的优势是什么?
KDA 混合结构(KDA hybrids with NoPE MLA)比传统的 MLA + RoPE 表现更好。
它在预训练和 RL 阶段都更快、更经济、更高效。
可以更快预训练、更快上线,也能服务更多用户。
可能会用在 K3 的训练里面。
K2 会有视觉语言(VL)版本吗?
有的,正在做。
K2 明显不像其他模型那样讨好用户(不拍马屁),是刻意设计的吗?这是后训练的结果吗?
K2 的非迎合式人格 是通过精心数据挑选设计出来的。
预训练和后训练都对这种风格有贡献。预训练编码了相关的先验,而后训练则为其增添了一些风味。
当前 Kimi for Coding 的计费方式按 API 请求数计算,极不透明,一次 prompt 可能多次请求,是否能改成按 token 或 prompt?
当前按请求数计费是因为:对用户可见;更符合他们的成本结构。但确实理解用户困惑,会考虑改进。
请问你认为 fp4 相比 int4 真的是一个很重要的改进吗?还是说 int4 已经足够好的编码了?
选择 int4 是为了对非 Blackwell GPU 更友好,同时利用现有的 int4 推理 marlin 内核。
K2 Thinking 模型比 GPT-5 Thinking 更强,但输出速度慢很多,是否刻意让它“思考更久”?
承认 K2-Thinking 在推理阶段更细致、更耗时,但优化正在进行。
专注于纯文本代理是为了在短期内以牺牲换取达到 SOTA 吗,还是一项长期押注?
要把视觉语言模型(VL)的数据和训练做对需要时间,因此我们选择先发布文本模型。
那个 460 万美元的 K2 Thinking 训练费用是真的吗?
不是官方数字。很难量化训练成本,因为很大一部分属于研究和实验。
在制作 K2 thinking 的过程中,你们遇到的最大挑战是什么?谢谢!
一个挑战是支持交错的“思考 - 工具 - 思考 - 工具”模式。这在 LLMs 中是相对新颖的行为,实现起来需要大量工作才能正确运行。
K2 thinking 在几个月来经过许多评测后,已经能抓到 Sonnet 4.5 和 Opus 4.1 漏掉的问题。说实话,感觉 K2 thinking 只差一点系统提示(system prompt)调整就能达到同等水平。这全都要归功于你们的新架构吗?还是你们的训练数据质量也有提升?
我认为拥有合适的评估方法和数据对性能至关重要。架构和优化器提高了样本效率。
你们训练堆栈的硬件是什么样的?想了解你们的基础设施如何与那些美国大型公司使用的堆栈相比?
使用带有 Infiniband 的 H800 GPU;它们不如美国的高端 GPU,而且数量也不占优势,但我们把每一张卡都充分利用起来
关注人工智能、LLM 、 AI 图像视频和设计(Interested in AI, LLM, Stable Diffusion, and design)
AIGC 周刊主理人|公众号:歸藏的AI工具箱