LogoThread Easy
  • Explorar
  • Criar thread
LogoThread Easy

Seu parceiro completo para threads do Twitter

© 2025 Thread Easy All Rights Reserved.

Explorar

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

Kimi-K2-Thinking:@Kimi_Moonshot 最新发布深度推理与智能体功能的开源模型

它不仅仅是一个高效的推理引擎,还内置了智能体能力,能够在复杂任务中动态调用工具,实现从简单问答到数百步自主工作流的端到端处理。这个模型标志着大语言模型向更具自主性和实用性的方向演进,尤其在编程、研究和写作等领域表现出色。

核心设计:MoE 架构下的高效“思考”机制
Kimi-K2-Thinking 采用 MoE 架构,总参数规模达 1T,但激活参数仅 32B,这意味着它在计算资源上更高效——每 token 只激活少数专家,避免了全参数模型的冗余开销。具体参数包括:61 层(含 1 个稠密层)、隐藏维度为注意力层 7168 和 MoE 每专家 2048、384 个专家(每 token 选中 8 个,含 1 个共享专家)、64 个注意力头、SwiGLU 激活函数、MLA 注意力机制、16 万词汇表,以及支持 256K 上下文长度。

这种设计让模型在处理长序列时保持低延迟,同时通过 CoT 机制生成逐步推理路径。不同于传统模型的线性输出,它能交替进行思考和工具调用,形成闭环:模型先“思考”问题分解,然后调用外部工具获取数据,最后整合输出。这种智能体式流程特别适合需要迭代验证的任务,如数学求解或代码调试。

关键创新:量化训练与长程稳定性
模型的最大亮点在于两大工程优化:首先是原生 INT4 量化,通过量化感知训练(QAT)将权重压缩到 4 位整数精度,实现约 2 倍推理速度提升,同时 GPU 显存占用降低 50% 以上。这不是后处理量化,而是从训练伊始就融入,确保精度损失最小(在多数基准上与 FP16 相当)。其次是长时程智能体稳定性,传统模型在 30–50 步工具调用后易“迷失”目标,但 Kimi-K2-Thinking 可稳定运行 200–300 步,保持目标导向行为。这得益于专属的训练策略,包括强化学习微调(RLHF)和工具使用模拟数据,帮助模型在多轮交互中维持连贯性。

这些创新使模型从“被动响应”转向“主动探索”,适用于真实场景如网页搜索、代码生成或多模态分析。

性能表现:基准测试领先
在多项评估中,Kimi-K2-Thinking 展现出强劲实力,尤其在带工具的“重度”任务上超越竞争对手。例如,在 Humanity's Last Exam(HLE)推理基准上,无工具得分达 23.9%,带工具提升至 44.9%,重度工具场景下进一步到 51.0%;在数学任务 AIME25 上,无工具 94.5%、带工具 99.1%、重度工具 100.0%;通用知识 MMLU-Pro 达 84.6%。在智能体搜索基准 BrowseComp 上为 60.2%,编程任务 SWE-bench Verified 达 71.3%,LiveCodeBenchV6 达 83.1%,Seal-0 智能体基准为 56.3%。特别是在中文任务如 BrowseComp-ZH 上达 62.3%。这些成绩证明模型在复杂、多步环境中可靠。

实际应用与生态支持
模型开源托管于 Hugging Face,支持 OpenAI/Anthropic 兼容 API,便于集成。使用时,可通过简单 Python 代码实现聊天或工具调用,例如基本聊天中输入问题,模型输出答案并附带推理路径(reasoning_content);工具调用则定义函数(如天气查询),模型自动决定何时调用,并在多轮中迭代结果。

许可采用 Modified MIT,允许商业使用,但需遵守开源条款。Moonshot AI 还提供部署指南(vLLM/SGLang 等框架)和工具调用文档,开发者可快速上手。总体而言,这款模型降低了智能体开发的门槛,推动 AI 从实验室走向生产环境。

Kimi-K2-Thinking:@Kimi_Moonshot 最新发布深度推理与智能体功能的开源模型 它不仅仅是一个高效的推理引擎,还内置了智能体能力,能够在复杂任务中动态调用工具,实现从简单问答到数百步自主工作流的端到端处理。这个模型标志着大语言模型向更具自主性和实用性的方向演进,尤其在编程、研究和写作等领域表现出色。 核心设计:MoE 架构下的高效“思考”机制 Kimi-K2-Thinking 采用 MoE 架构,总参数规模达 1T,但激活参数仅 32B,这意味着它在计算资源上更高效——每 token 只激活少数专家,避免了全参数模型的冗余开销。具体参数包括:61 层(含 1 个稠密层)、隐藏维度为注意力层 7168 和 MoE 每专家 2048、384 个专家(每 token 选中 8 个,含 1 个共享专家)、64 个注意力头、SwiGLU 激活函数、MLA 注意力机制、16 万词汇表,以及支持 256K 上下文长度。 这种设计让模型在处理长序列时保持低延迟,同时通过 CoT 机制生成逐步推理路径。不同于传统模型的线性输出,它能交替进行思考和工具调用,形成闭环:模型先“思考”问题分解,然后调用外部工具获取数据,最后整合输出。这种智能体式流程特别适合需要迭代验证的任务,如数学求解或代码调试。 关键创新:量化训练与长程稳定性 模型的最大亮点在于两大工程优化:首先是原生 INT4 量化,通过量化感知训练(QAT)将权重压缩到 4 位整数精度,实现约 2 倍推理速度提升,同时 GPU 显存占用降低 50% 以上。这不是后处理量化,而是从训练伊始就融入,确保精度损失最小(在多数基准上与 FP16 相当)。其次是长时程智能体稳定性,传统模型在 30–50 步工具调用后易“迷失”目标,但 Kimi-K2-Thinking 可稳定运行 200–300 步,保持目标导向行为。这得益于专属的训练策略,包括强化学习微调(RLHF)和工具使用模拟数据,帮助模型在多轮交互中维持连贯性。 这些创新使模型从“被动响应”转向“主动探索”,适用于真实场景如网页搜索、代码生成或多模态分析。 性能表现:基准测试领先 在多项评估中,Kimi-K2-Thinking 展现出强劲实力,尤其在带工具的“重度”任务上超越竞争对手。例如,在 Humanity's Last Exam(HLE)推理基准上,无工具得分达 23.9%,带工具提升至 44.9%,重度工具场景下进一步到 51.0%;在数学任务 AIME25 上,无工具 94.5%、带工具 99.1%、重度工具 100.0%;通用知识 MMLU-Pro 达 84.6%。在智能体搜索基准 BrowseComp 上为 60.2%,编程任务 SWE-bench Verified 达 71.3%,LiveCodeBenchV6 达 83.1%,Seal-0 智能体基准为 56.3%。特别是在中文任务如 BrowseComp-ZH 上达 62.3%。这些成绩证明模型在复杂、多步环境中可靠。 实际应用与生态支持 模型开源托管于 Hugging Face,支持 OpenAI/Anthropic 兼容 API,便于集成。使用时,可通过简单 Python 代码实现聊天或工具调用,例如基本聊天中输入问题,模型输出答案并附带推理路径(reasoning_content);工具调用则定义函数(如天气查询),模型自动决定何时调用,并在多轮中迭代结果。 许可采用 Modified MIT,允许商业使用,但需遵守开源条款。Moonshot AI 还提供部署指南(vLLM/SGLang 等框架)和工具调用文档,开发者可快速上手。总体而言,这款模型降低了智能体开发的门槛,推动 AI 从实验室走向生产环境。

专注 - Context Engineering, AI(Coding)Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴 🔗 信息卡提示词 🔽

avatar for meng shao
meng shao
Fri Nov 07 00:44:30
你总得有个价值主张
这样你就能吸引到和你价值主张一致的人
做个人IP是这样 做产品是这样 做品牌也是这样

不论是你是不是非常的普通
你都有宝贵的自我价值主张

Pavel的价值主张是自由 就吸引追逐自由的人
乔布斯的价值主张是创造 就吸引改变世界的人

价值主张有积极的 也有消极的
但它本身已经塑造了过滤器
鱼配鱼 虾配虾 乌龟配王八
价值主张可能存在短期错配
但当你意识到的时候 就会分道扬镳
这就是所谓的“塌房”了
曾经你以为是同路人
没想到对方只是拿他打了个幌子

你总得有个价值主张 这样你就能吸引到和你价值主张一致的人 做个人IP是这样 做产品是这样 做品牌也是这样 不论是你是不是非常的普通 你都有宝贵的自我价值主张 Pavel的价值主张是自由 就吸引追逐自由的人 乔布斯的价值主张是创造 就吸引改变世界的人 价值主张有积极的 也有消极的 但它本身已经塑造了过滤器 鱼配鱼 虾配虾 乌龟配王八 价值主张可能存在短期错配 但当你意识到的时候 就会分道扬镳 这就是所谓的“塌房”了 曾经你以为是同路人 没想到对方只是拿他打了个幌子

Believing is seeing

avatar for Yangyi
Yangyi
Fri Nov 07 00:43:50
RT @kwharrison13: I’ve seen a dozen AI products built by killer engineers. They ramp revenue but struggle with churn, enterprise, and expan…

RT @kwharrison13: I’ve seen a dozen AI products built by killer engineers. They ramp revenue but struggle with churn, enterprise, and expan…

Deeply researched product, growth, and career advice

avatar for Lenny Rachitsky
Lenny Rachitsky
Fri Nov 07 00:42:02
RT @RachelWu2000: 虽然不是web3
但时常觉得
这个世界对女孩子的恶意挺大的

有钱就得是男人给的。
做事情就是为了找对象。

当然后来发现了
解决这个刻板印象的方式就是
减少社交,好好做事,主动买单

RT @RachelWu2000: 虽然不是web3 但时常觉得 这个世界对女孩子的恶意挺大的 有钱就得是男人给的。 做事情就是为了找对象。 当然后来发现了 解决这个刻板印象的方式就是 减少社交,好好做事,主动买单

Programmer | Growth Coach|Helping creators build their personal brand on X 公众号:PandaTalk8

avatar for Mr Panda
Mr Panda
Fri Nov 07 00:41:57
website... update.... 🤖 ... refresh .... 🧅🧅🧅

website... update.... 🤖 ... refresh .... 🧅🧅🧅

they kept laying me off so I began building 🚜 🌱 https://t.co/wfrYC5S7wn 🧅 📦 https://t.co/JtMqAWilhs ecomm 🐂 🛠️ https://t.co/E8U0DUsKzT jobs 🟥 🟦 hottytoddy

avatar for Peter Askew
Peter Askew
Fri Nov 07 00:40:15
website... update.... 🤖 ... refresh .... 🧅🧅🧅

website... update.... 🤖 ... refresh .... 🧅🧅🧅

they kept laying me off so I began building 🚜 🌱 https://t.co/wfrYC5S7wn 🧅 📦 https://t.co/JtMqAWilhs ecomm 🐂 🛠️ https://t.co/E8U0DUsKzT jobs 🟥 🟦 hottytoddy

avatar for Peter Askew
Peter Askew
Fri Nov 07 00:40:15
  • Previous
  • 1
  • More pages
  • 634
  • 635
  • 636
  • More pages
  • 2111
  • Next