探索 | Thread Easy - 展开 Twitter 线程｜阅读、总结与创作

Kimi-K2-Thinking：@Kimi_Moonshot 最新发布深度推理与智能体功能的开源模型它不仅仅是一个高效的推理引擎，还内置了智能体能力，能够在复杂任务中动态调用工具，实现从简单问答到数百步自主工作流的端到端处理。这个模型标志着大语言模型向更具自主性和实用性的方向演进，尤其在编程、研究和写作等领域表现出色。核心设计：MoE 架构下的高效“思考”机制 Kimi-K2-Thinking 采用 MoE 架构，总参数规模达 1T，但激活参数仅 32B，这意味着它在计算资源上更高效——每 token 只激活少数专家，避免了全参数模型的冗余开销。具体参数包括：61 层（含 1 个稠密层）、隐藏维度为注意力层 7168 和 MoE 每专家 2048、384 个专家（每 token 选中 8 个，含 1 个共享专家）、64 个注意力头、SwiGLU 激活函数、MLA 注意力机制、16 万词汇表，以及支持 256K 上下文长度。这种设计让模型在处理长序列时保持低延迟，同时通过 CoT 机制生成逐步推理路径。不同于传统模型的线性输出，它能交替进行思考和工具调用，形成闭环：模型先“思考”问题分解，然后调用外部工具获取数据，最后整合输出。这种智能体式流程特别适合需要迭代验证的任务，如数学求解或代码调试。关键创新：量化训练与长程稳定性模型的最大亮点在于两大工程优化：首先是原生 INT4 量化，通过量化感知训练（QAT）将权重压缩到 4 位整数精度，实现约 2 倍推理速度提升，同时 GPU 显存占用降低 50% 以上。这不是后处理量化，而是从训练伊始就融入，确保精度损失最小（在多数基准上与 FP16 相当）。其次是长时程智能体稳定性，传统模型在 30–50 步工具调用后易“迷失”目标，但 Kimi-K2-Thinking 可稳定运行 200–300 步，保持目标导向行为。这得益于专属的训练策略，包括强化学习微调（RLHF）和工具使用模拟数据，帮助模型在多轮交互中维持连贯性。这些创新使模型从“被动响应”转向“主动探索”，适用于真实场景如网页搜索、代码生成或多模态分析。性能表现：基准测试领先在多项评估中，Kimi-K2-Thinking 展现出强劲实力，尤其在带工具的“重度”任务上超越竞争对手。例如，在 Humanity's Last Exam（HLE）推理基准上，无工具得分达 23.9%，带工具提升至 44.9%，重度工具场景下进一步到 51.0%；在数学任务 AIME25 上，无工具 94.5%、带工具 99.1%、重度工具 100.0%；通用知识 MMLU-Pro 达 84.6%。在智能体搜索基准 BrowseComp 上为 60.2%，编程任务 SWE-bench Verified 达 71.3%，LiveCodeBenchV6 达 83.1%，Seal-0 智能体基准为 56.3%。特别是在中文任务如 BrowseComp-ZH 上达 62.3%。这些成绩证明模型在复杂、多步环境中可靠。实际应用与生态支持模型开源托管于 Hugging Face，支持 OpenAI/Anthropic 兼容 API，便于集成。使用时，可通过简单 Python 代码实现聊天或工具调用，例如基本聊天中输入问题，模型输出答案并附带推理路径（reasoning_content）；工具调用则定义函数（如天气查询），模型自动决定何时调用，并在多轮中迭代结果。许可采用 Modified MIT，允许商业使用，但需遵守开源条款。Moonshot AI 还提供部署指南（vLLM/SGLang 等框架）和工具调用文档，开发者可快速上手。总体而言，这款模型降低了智能体开发的门槛，推动 AI 从实验室走向生产环境。

专注 - Context Engineering, AI(Coding)Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱：shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴 🔗 信息卡提示词 🔽

meng shao

Fri Nov 07 00:44:30

你总得有个价值主张这样你就能吸引到和你价值主张一致的人做个人IP是这样做产品是这样做品牌也是这样不论是你是不是非常的普通你都有宝贵的自我价值主张 Pavel的价值主张是自由就吸引追逐自由的人乔布斯的价值主张是创造就吸引改变世界的人价值主张有积极的也有消极的但它本身已经塑造了过滤器鱼配鱼虾配虾乌龟配王八价值主张可能存在短期错配但当你意识到的时候就会分道扬镳这就是所谓的“塌房”了曾经你以为是同路人没想到对方只是拿他打了个幌子

Believing is seeing

Yangyi

Fri Nov 07 00:43:50

RT @kwharrison13: I’ve seen a dozen AI products built by killer engineers. They ramp revenue but struggle with churn, enterprise, and expan…

Deeply researched product, growth, and career advice

Lenny Rachitsky

Fri Nov 07 00:42:02

RT @RachelWu2000: 虽然不是web3 但时常觉得这个世界对女孩子的恶意挺大的有钱就得是男人给的。做事情就是为了找对象。当然后来发现了解决这个刻板印象的方式就是减少社交，好好做事，主动买单

Programmer ｜ Growth Coach｜Helping creators build their personal brand on X 公众号：PandaTalk8

Mr Panda

Fri Nov 07 00:41:57

website... update.... 🤖 ... refresh .... 🧅🧅🧅

they kept laying me off so I began building 🚜 🌱 https://t.co/wfrYC5S7wn 🧅 📦 https://t.co/JtMqAWilhs ecomm 🐂 🛠️ https://t.co/E8U0DUsKzT jobs 🟥 🟦 hottytoddy

Peter Askew

Fri Nov 07 00:40:15

website... update.... 🤖 ... refresh .... 🧅🧅🧅

they kept laying me off so I began building 🚜 🌱 https://t.co/wfrYC5S7wn 🧅 📦 https://t.co/JtMqAWilhs ecomm 🐂 🛠️ https://t.co/E8U0DUsKzT jobs 🟥 🟦 hottytoddy

Peter Askew

Fri Nov 07 00:40:15

探索

最新在前，按卡片方式浏览线程

探索

最新在前，按卡片方式浏览线程

RT @kwharrison13: I’ve seen a dozen AI products built by killer engineers. They ramp revenue but struggle with churn, enterprise, and expan…

RT @RachelWu2000: 虽然不是web3 但时常觉得这个世界对女孩子的恶意挺大的有钱就得是男人给的。做事情就是为了找对象。当然后来发现了解决这个刻板印象的方式就是减少社交，好好做事，主动买单

website... update.... 🤖 ... refresh .... 🧅🧅🧅

website... update.... 🤖 ... refresh .... 🧅🧅🧅

探索

最新在前，按卡片方式浏览线程

探索

最新在前，按卡片方式浏览线程

RT @kwharrison13: I’ve seen a dozen AI products built by killer engineers. They ramp revenue but struggle with churn, enterprise, and expan…

RT @RachelWu2000: 虽然不是web3 但时常觉得 这个世界对女孩子的恶意挺大的 有钱就得是男人给的。 做事情就是为了找对象。 当然后来发现了 解决这个刻板印象的方式就是 减少社交，好好做事，主动买单

website... update.... 🤖 ... refresh .... 🧅🧅🧅

website... update.... 🤖 ... refresh .... 🧅🧅🧅

RT @RachelWu2000: 虽然不是web3 但时常觉得这个世界对女孩子的恶意挺大的有钱就得是男人给的。做事情就是为了找对象。当然后来发现了解决这个刻板印象的方式就是减少社交，好好做事，主动买单