探索
撰写 Thread

Thread Easy

您的一体化 Twitter 线程助手

© 2025 Thread Easy All Rights Reserved.

探索

最新在前，按卡片方式浏览线程

作者账号

起始日期

结束日期

模糊预览图

开启时会模糊预览图，关闭后正常显示

昨晚 Kimi K2 的训练团队在 Reddit LocalLLaMA 频道做了一次 AMA

看了一下海外用户对于 K2-Thinking 的评价和国内在我评论区的评价还是挺不一样的。

海外用户对价格相对没那么敏感，当然也提到了按调用次数而不是按 Token 这样有些问题，总体来说还是跟关注技术和质量，当然也跟 LocalLLaMA 这个频道的属性有关系。

他们昨晚也在 AMA 里面回答了很多问题，我整理了一些有信息量的：

----------------------------

KDA 会用在下一代旗舰模型 Kimi 吗？它的优势是什么？

KDA 混合结构（KDA hybrids with NoPE MLA）比传统的 MLA + RoPE 表现更好。

它在预训练和 RL 阶段都更快、更经济、更高效。

可以更快预训练、更快上线，也能服务更多用户。

可能会用在 K3 的训练里面。

K2 会有视觉语言（VL）版本吗？

有的，正在做。

K2 明显不像其他模型那样讨好用户（不拍马屁），是刻意设计的吗？这是后训练的结果吗？

K2 的非迎合式人格是通过精心数据挑选设计出来的。

预训练和后训练都对这种风格有贡献。预训练编码了相关的先验，而后训练则为其增添了一些风味。

当前 Kimi for Coding 的计费方式按 API 请求数计算，极不透明，一次 prompt 可能多次请求，是否能改成按 token 或 prompt？

当前按请求数计费是因为：对用户可见；更符合他们的成本结构。但确实理解用户困惑，会考虑改进。

请问你认为 fp4 相比 int4 真的是一个很重要的改进吗？还是说 int4 已经足够好的编码了？

选择 int4 是为了对非 Blackwell GPU 更友好，同时利用现有的 int4 推理 marlin 内核。

K2 Thinking 模型比 GPT-5 Thinking 更强，但输出速度慢很多，是否刻意让它“思考更久”？

承认 K2-Thinking 在推理阶段更细致、更耗时，但优化正在进行。

专注于纯文本代理是为了在短期内以牺牲换取达到 SOTA 吗，还是一项长期押注？

要把视觉语言模型（VL）的数据和训练做对需要时间，因此我们选择先发布文本模型。

那个 460 万美元的 K2 Thinking 训练费用是真的吗？

不是官方数字。很难量化训练成本，因为很大一部分属于研究和实验。

在制作 K2 thinking 的过程中，你们遇到的最大挑战是什么？谢谢！

一个挑战是支持交错的“思考 - 工具 - 思考 - 工具”模式。这在 LLMs 中是相对新颖的行为，实现起来需要大量工作才能正确运行。

K2 thinking 在几个月来经过许多评测后，已经能抓到 Sonnet 4.5 和 Opus 4.1 漏掉的问题。说实话，感觉 K2 thinking 只差一点系统提示（system prompt）调整就能达到同等水平。这全都要归功于你们的新架构吗？还是你们的训练数据质量也有提升？

我认为拥有合适的评估方法和数据对性能至关重要。架构和优化器提高了样本效率。

你们训练堆栈的硬件是什么样的？想了解你们的基础设施如何与那些美国大型公司使用的堆栈相比？

使用带有 Infiniband 的 H800 GPU；它们不如美国的高端 GPU，而且数量也不占优势，但我们把每一张卡都充分利用起来

昨晚 Kimi K2 的训练团队在 Reddit LocalLLaMA 频道做了一次 AMA 看了一下海外用户对于 K2-Thinking 的评价和国内在我评论区的评价还是挺不一样的。海外用户对价格相对没那么敏感，当然也提到了按调用次数而不是按 Token 这样有些问题，总体来说还是跟关注技术和质量，当然也跟 LocalLLaMA 这个频道的属性有关系。他们昨晚也在 AMA 里面回答了很多问题，我整理了一些有信息量的： ---------------------------- KDA 会用在下一代旗舰模型 Kimi 吗？它的优势是什么？ KDA 混合结构（KDA hybrids with NoPE MLA）比传统的 MLA + RoPE 表现更好。它在预训练和 RL 阶段都更快、更经济、更高效。可以更快预训练、更快上线，也能服务更多用户。可能会用在 K3 的训练里面。 K2 会有视觉语言（VL）版本吗？有的，正在做。 K2 明显不像其他模型那样讨好用户（不拍马屁），是刻意设计的吗？这是后训练的结果吗？ K2 的非迎合式人格是通过精心数据挑选设计出来的。预训练和后训练都对这种风格有贡献。预训练编码了相关的先验，而后训练则为其增添了一些风味。当前 Kimi for Coding 的计费方式按 API 请求数计算，极不透明，一次 prompt 可能多次请求，是否能改成按 token 或 prompt？当前按请求数计费是因为：对用户可见；更符合他们的成本结构。但确实理解用户困惑，会考虑改进。请问你认为 fp4 相比 int4 真的是一个很重要的改进吗？还是说 int4 已经足够好的编码了？选择 int4 是为了对非 Blackwell GPU 更友好，同时利用现有的 int4 推理 marlin 内核。 K2 Thinking 模型比 GPT-5 Thinking 更强，但输出速度慢很多，是否刻意让它“思考更久”？承认 K2-Thinking 在推理阶段更细致、更耗时，但优化正在进行。专注于纯文本代理是为了在短期内以牺牲换取达到 SOTA 吗，还是一项长期押注？要把视觉语言模型（VL）的数据和训练做对需要时间，因此我们选择先发布文本模型。那个 460 万美元的 K2 Thinking 训练费用是真的吗？不是官方数字。很难量化训练成本，因为很大一部分属于研究和实验。在制作 K2 thinking 的过程中，你们遇到的最大挑战是什么？谢谢！一个挑战是支持交错的“思考 - 工具 - 思考 - 工具”模式。这在 LLMs 中是相对新颖的行为，实现起来需要大量工作才能正确运行。 K2 thinking 在几个月来经过许多评测后，已经能抓到 Sonnet 4.5 和 Opus 4.1 漏掉的问题。说实话，感觉 K2 thinking 只差一点系统提示（system prompt）调整就能达到同等水平。这全都要归功于你们的新架构吗？还是你们的训练数据质量也有提升？我认为拥有合适的评估方法和数据对性能至关重要。架构和优化器提高了样本效率。你们训练堆栈的硬件是什么样的？想了解你们的基础设施如何与那些美国大型公司使用的堆栈相比？使用带有 Infiniband 的 H800 GPU；它们不如美国的高端 GPU，而且数量也不占优势，但我们把每一张卡都充分利用起来

关注人工智能、LLM 、 AI 图像视频和设计（Interested in AI, LLM, Stable Diffusion, and design） AIGC 周刊主理人｜公众号：歸藏的AI工具箱

歸藏(guizang.ai)

Tue Nov 11 05:00:49

恍然大悟！

最好的提示词管理工具，其实是 Claude 的Sub agent。

保存一堆提示词就是为了用。

直接做成 Sub Agent，自然语言对话，模型自动调用。

创建 Subagent 很简单：

1. 输入 /agents
2. Create new agent
3. 我选 Personal (~/.claude/agents/) ，全局生效
4. 输入名称，描述和提示词

恍然大悟！最好的提示词管理工具，其实是 Claude 的Sub agent。保存一堆提示词就是为了用。直接做成 Sub Agent，自然语言对话，模型自动调用。创建 Subagent 很简单： 1. 输入 /agents 2. Create new agent 3. 我选 Personal (~/.claude/agents/) ，全局生效 4. 输入名称，描述和提示词

喜欢摇滚乐、爱钓鱼的PM 网站：https://t.co/vnUpLt752o

Tue Nov 11 04:59:20

If you identify and mitigate negative externalities of a new technology super early, you might be able to fend off future imprecise regulation or public backlash. You might even accelerate that very technology’s progress.

If you identify and mitigate negative externalities of a new technology super early, you might be able to fend off future imprecise regulation or public backlash. You might even accelerate that very technology’s progress.

Host @TBPN

Tue Nov 11 04:46:08

If you identify and mitigate negative externalities of a new technology super early, you might be able to fend off future imprecise regulation or public backlash. You might even accelerate that very technology’s progress.

If you identify and mitigate negative externalities of a new technology super early, you might be able to fend off future imprecise regulation or public backlash. You might even accelerate that very technology’s progress.

Host @TBPN

Tue Nov 11 04:46:08

If you identify and mitigate negative externalities of a new technology super early, you might be able to fend off future imprecise regulation or public backlash. You might even accelerate that very technology’s progress.

If you identify and mitigate negative externalities of a new technology super early, you might be able to fend off future imprecise regulation or public backlash. You might even accelerate that very technology’s progress.

Host @TBPN

Tue Nov 11 04:46:08

前几天 X 上有个短剧名字很吸引人。

霸道总裁爱上前端开发的我

换成女总裁，用这个工具生成动漫。

X 每次只能上传4张图，实际能一次性生成5-8张。

选几张感受下。

前几天 X 上有个短剧名字很吸引人。霸道总裁爱上前端开发的我换成女总裁，用这个工具生成动漫。 X 每次只能上传4张图，实际能一次性生成5-8张。选几张感受下。

喜欢摇滚乐、爱钓鱼的PM 网站：https://t.co/vnUpLt752o

Tue Nov 11 04:41:02

Previous
1
197
198
199
2117
Next