X (Twitter)

Kimi 開源K2-Thinking，出乎所有人意料掏出了個大的！ HLE（44.9）與IMO（76.8）全球SOTA！第一時間試了一下，順便介紹他們的程式設計全家桶（模型、CLI、會員）以下是詳細的使用教學與測試👇

懶得等施工🚧 可以看長文： mp.weixin.qq.com/s/54qHLvw2VK3r…a

先介紹一下模型的升級內容： Agent化升級: 原生「邊思考、邊用工具」，可自主持續多輪推理與調用，最高約300輪。推理SOTA: HLE（44.9）和IMO（76.8）都做到了目前的最高分，複雜檢索與長程規劃顯著增強。程式增強: Agentic Coding更穩，前端（HTML/React/元件化）與多語言工程基準表現提升。通用基礎能力升級：創意寫作更有韻律與深度；學術與研究場景下分析更嚴謹、結構清晰；可長篇任務中保持邏輯與風格穩定。效率提升: 原生INT4（QAT+MoE weight‑only），長解碼下效能保持，產生速度約提升2×。

而這段時間Kimi 在程式設計領域不只專注於模型，也在考慮週邊生態，如何讓大家在更方便和實惠的使用K2 程式設計。他們推出了自己的AI 程式設計CLI 工具Kimi CLI，安裝方式和使用基本拉齊的Claude Code。也加上了編碼的API 套餐他們叫KFC，199 元的每週提供7168 次調用，非常夠用了。

首先來看看如何通過Kimi 全家桶，方便快速的用上升級後的K2-Thinking 模型。我們需要購買一個Kimi 登月計畫的會員，直接去官網買就好。而且如果你之前打賞過Kimi 的話，你打賞的錢會在你首次開通之後幫你充值到賬戶裡面，非常的良心。這裡有個設計問題，如果你想要取得Kimi For Coding 的API Key 的話，需要點選下面圖片裡面框住的文字，然後複製就行，希望後面改改，例如放到設定裡面。

然後我們就可以去安裝Kimi CLI 了，這裡如果你沒有安裝UV 的話需要先在終端機上安裝UV。然後再透過這段程式碼安裝Kimi CLI 就行 uv tool install --python 3.13 kimi-cli 安裝後在終端機打開你的專案目錄輸入kimi 就可以啟動Kimi CLI 了。第一次啟動後會讓你選取登入方式，選取第一個然後輸入剛才從KFC 取得的API Key 就行。進去之後按Tab 鍵就可以啟用思考，這時候用的就是K2-Thinking 模型了Claude Code 啟用思考也是一樣的操作。

當然這個依舊可以在Cluade Code 裡面使用。如果嫌配置環境變數麻煩的話，用我的《ai-claude-start》專案就行，創建的時候填寫下面內容。

接下來就是模型測試了。我會先提一個基礎的Todo 網頁應用程式的需求，然後不斷的增加修改和功能添加要求，看看十輪修改之後的結果。可以看到這就是從第一步的簡陋Todo 應用不斷添加功能到最後幾乎已經是一個完整產品的過程了。約到後面需求是越來越難的，例如拖曳功能以及最後的行動端適配大改版，中間還伴隨著增加功能導致的UI 變化，但是K2-Thinking 全部都是一次搞定。第三次的時候由於增加功能導致的UI 問題，也在第四次修復了，有點頂。

我也用其他模型試了一下這個測試。 Claude 4.5 可以搞定，但是Codex 就不行了。以下是Codex CLI 第七輪修改的樣子，非常的淒涼，這產品幾乎不可用，讓他整廢了。

然後是考驗Kimi CLI 搜尋能力的一個測試，搜尋Linear 這個產品的首頁設計風格然後寫一個網頁復刻這個產品網頁的設計風格。他真的在呼叫搜尋工具搜尋一些Linear 風格的設計文章，然後總結了Linear 的設計特點拓展了原來的提示詞和要求。這裡面最難的是那個磁吸按鈕以及卡片上滑鼠Hover 的光效，也是之前Linear 的設計核心，他都搞定了。我也用這個提示詞在Claude Code 裡面讓Claude 4.5 嘗試了，磁吸按鈕動效以及滑鼠Hover 的漸變效果Claude 4.5 都沒有搞定。

接下來是考驗複雜業務邏輯的測試。讓他做一個流程圖工具，這裡面隱藏著非常多的互動邏輯衝突陷阱，例如拖曳和點擊的衝突、連線是跟組件的綁定等。關於拖曳和連線容易造成的衝突問題這個機靈鬼直接整了個模式切換按鈕，不過倒是也解決問題了。連線的時候功能正常且路徑合理，不會瞎繞，同時邏輯判斷節點也會自動添加是和否的標註，看起來帶了思考能力以後對於這種有陷阱的複雜邏輯處理的不錯。

在之後是API 處理、資料呼叫以及視覺化的能力測試，讓他整一個對於視覺化要求比較高的區塊鏈看板。看一下結果執行的相當不錯，調用了正確的API 獲取到了數據，同時該有的可視化標註和排序都實現了。點擊詳細的數據之後展示詳細的折線圖也做了，增加了展開收起動畫以及詳細的Hover 數據。

最後是一段寫好的程式碼裡面有些問題，看一下能不能辨識並且解決。我讓其他AI 寫了一段有五個問題的列表網頁，一次性渲染一個超大列表，讓他修復卡頓問題和提高查詢速度。搞笑的是他不只修復了問題，而且還增加了一個性能監控的組件，讓你在運行和測試網頁的時候可以實時看到修復後的數據細節，從數據而不是從感知上讓你看到效果。

月之暗面雖然在國內是六小龍之一，但在全球範圍內，只有Open AI 估值的0.5%，Anthropic 的2%。就是以這樣的一個小體量的國產公司，竟然拿出了兩個高難度測試集裡的SOTA 成績，而且不是國內SOTA，不是開源SOTA，是全球SOTA！發布前在他們推特下面看到一個評論，這也是現在很多海外用戶的想法，最近類似的內容我刷到很多次。

來自歸藏(guizang.ai)（@op7418）的推文串

作者資訊

推文串內容