Kimi-K2-Thinking:@Kimi_Moonshot 最新發布深度推理與智能體功能的開源模型 它不僅僅是一個高效的推理引擎,還內建了智慧體能力,能夠在複雜任務中動態調用工具,實現從簡單問答到數百步自主工作流程的端到端處理。這個模型標誌著大語言模型朝著更具自主性和實用性的方向演進,尤其在程式設計、研究和寫作等領域表現出色。 核心設計:MoE 架構下的高效率「思考」機制 Kimi-K2-Thinking 採用MoE 架構,總參數規模達1T,但激活參數僅32B,這意味著它在計算資源上更有效率——每token 只激活少數專家,避免了全參數模型的冗餘開銷。具體參數包括:61 層(含1 個稠密層)、隱藏維度為注意力層7168 和MoE 每專家2048、384 個專家(每token 選中8 個,含1 個共享專家)、64 個注意力頭、SwiGLU 激活函數、MLA 注意力機制、16 萬詞彙表,以及支持256K 上下文長度。 這種設計讓模型在處理長序列時保持低延遲,同時透過CoT 機制產生逐步推理路徑。有別於傳統模型的線性輸出,它能交替進行思考和工具調用,形成閉環:模型先「思考」問題分解,然後調用外部工具取得數據,最後整合輸出。這種智慧體式流程特別適合需要迭代驗證的任務,如數學解法或程式碼偵錯。 關鍵創新:量化訓練與長程穩定性模型的最大亮點在於兩大工程優化:首先是原生INT4 量化,透過量化感知訓練(QAT)將權重壓縮到4 位整數精度,實現約2 倍推理速度提升,同時GPU 顯存佔用降低50% 以上。這不是後處理量化,而是從訓練開始就融入,確保精確度損失最小(在多數基準上與FP16 相當)。其次是長時程智能體穩定性,傳統模型在30–50 步工具調用後易「迷失」目標,但Kimi-K2-Thinking 可穩定運行200–300 步,維持目標導向行為。這得益於專屬的訓練策略,包括強化學習微調(RLHF)和工具使用模擬數據,幫助模型在多輪互動中維持連貫性。 這些創新使模型從“被動響應”轉向“主動探索”,適用於真實場景如網頁搜尋、程式碼生成或多模態分析。 性能表現:基準測試領先在多項評估中,Kimi-K2-Thinking 展現出強勁實力,尤其在帶工具的「重度」任務上超越競爭對手。例如,在Humanity's Last Exam(HLE)推理基準上,無工具得分達23.9%,帶工具提升至44.9%,重度工具場景下進一步到51.0%;在數學任務AIME25 上,無工具94.5%、帶工具99.1%、重度工具100.0%;在智能體搜尋基準BrowseComp 上為60.2%,程式設計任務SWE-bench Verified 達71.3%,LiveCodeBenchV6 達83.1%,Seal-0 智能體基準為56.3%。特別是在中文任務如BrowseComp-ZH 上達62.3%。這些成績證明模型在複雜、多步驟環境中可靠。 實際應用與生態支援模型開源託管於Hugging Face,支援OpenAI/Anthropic 相容API,方便整合。使用時,可透過簡單Python 程式碼實現聊天或工具調用,例如基本聊天中輸入問題,模型輸出答案並附帶推理路徑(reasoning_content);工具調用則定義函數(如天氣查詢),模型會自動決定何時調用,並在多輪中迭代結果。 授權採用Modified MIT,允許商業使用,但需遵守開源條款。 Moonshot AI 也提供部署指南(vLLM/SGLang 等框架)和工具呼叫文檔,開發者可快速上手。整體而言,這款模式降低了智能體開發的門檻,推動AI 從實驗室走向生產環境。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
