X (Twitter)

Kimi-K2-Thinking：@Kimi_Moonshot 最新發布深度推理與智能體功能的開源模型它不僅僅是一個高效的推理引擎，還內建了智慧體能力，能夠在複雜任務中動態調用工具，實現從簡單問答到數百步自主工作流程的端到端處理。這個模型標誌著大語言模型朝著更具自主性和實用性的方向演進，尤其在程式設計、研究和寫作等領域表現出色。核心設計：MoE 架構下的高效率「思考」機制 Kimi-K2-Thinking 採用MoE 架構，總參數規模達1T，但激活參數僅32B，這意味著它在計算資源上更有效率——每token 只激活少數專家，避免了全參數模型的冗餘開銷。具體參數包括：61 層（含1 個稠密層）、隱藏維度為注意力層7168 和MoE 每專家2048、384 個專家（每token 選中8 個，含1 個共享專家）、64 個注意力頭、SwiGLU 激活函數、MLA 注意力機制、16 萬詞彙表，以及支持256K 上下文長度。這種設計讓模型在處理長序列時保持低延遲，同時透過CoT 機制產生逐步推理路徑。有別於傳統模型的線性輸出，它能交替進行思考和工具調用，形成閉環：模型先「思考」問題分解，然後調用外部工具取得數據，最後整合輸出。這種智慧體式流程特別適合需要迭代驗證的任務，如數學解法或程式碼偵錯。關鍵創新：量化訓練與長程穩定性模型的最大亮點在於兩大工程優化：首先是原生INT4 量化，透過量化感知訓練（QAT）將權重壓縮到4 位整數精度，實現約2 倍推理速度提升，同時GPU 顯存佔用降低50% 以上。這不是後處理量化，而是從訓練開始就融入，確保精確度損失最小（在多數基準上與FP16 相當）。其次是長時程智能體穩定性，傳統模型在30–50 步工具調用後易「迷失」目標，但Kimi-K2-Thinking 可穩定運行200–300 步，維持目標導向行為。這得益於專屬的訓練策略，包括強化學習微調（RLHF）和工具使用模擬數據，幫助模型在多輪互動中維持連貫性。這些創新使模型從“被動響應”轉向“主動探索”，適用於真實場景如網頁搜尋、程式碼生成或多模態分析。性能表現：基準測試領先在多項評估中，Kimi-K2-Thinking 展現出強勁實力，尤其在帶工具的「重度」任務上超越競爭對手。例如，在Humanity's Last Exam（HLE）推理基準上，無工具得分達23.9%，帶工具提升至44.9%，重度工具場景下進一步到51.0%；在數學任務AIME25 上，無工具94.5%、帶工具99.1%、重度工具100.0%；在智能體搜尋基準BrowseComp 上為60.2%，程式設計任務SWE-bench Verified 達71.3%，LiveCodeBenchV6 達83.1%，Seal-0 智能體基準為56.3%。特別是在中文任務如BrowseComp-ZH 上達62.3%。這些成績證明模型在複雜、多步驟環境中可靠。實際應用與生態支援模型開源託管於Hugging Face，支援OpenAI/Anthropic 相容API，方便整合。使用時，可透過簡單Python 程式碼實現聊天或工具調用，例如基本聊天中輸入問題，模型輸出答案並附帶推理路徑（reasoning_content）；工具調用則定義函數（如天氣查詢），模型會自動決定何時調用，並在多輪中迭代結果。授權採用Modified MIT，允許商業使用，但需遵守開源條款。 Moonshot AI 也提供部署指南（vLLM/SGLang 等框架）和工具呼叫文檔，開發者可快速上手。整體而言，這款模式降低了智能體開發的門檻，推動AI 從實驗室走向生產環境。

来自 meng shao（@shao__meng）的推文线程

作者信息

线程正文