X (Twitter)

kimi-k2-thinking 評測，講點有趣且不一樣的在本季賽博鬥蛐蛐中，我讓K2-thinking 和GPT-5 High 分別潤飾同一份歷史遺留「設計系統文件」，再交給兩位裁判（GPT-5 Pro、Gemini 2.5 Pro）打分數。長話短說，Kimi 小勝兩位裁判意見一致：日常「查」用Kimi，系統「讀」看High。如果追求快而準，用kimi 版做主文檔。對話記錄放在評論區, 可自行查看 GPT-5 Pro 甚至建構了一套專業評審架構(圖1)：10 個指標、百分制加權評分。在最關鍵的"可執行性"指標上（權重15%），Kimi 版拿到4.8 分，顯著高於GPT-5 版的4.5 分。這2.7 分的差距，直接決定了勝負。 Kimi 在可執行性（Actionability）與可掃讀性（Scanability）更強：有表格、有Do/Don't、速查程式碼區塊一目了然； High 在工程對齊（Repo Alignment）略勝，適合做製度級藍本。我完整審閱了雙方輸出，核心結論是：文檔的使命是"讓人看懂且能用"，而非"堆砌信息追求極致壓縮"。在這個維度上，Kimi 的平衡感明顯更勝一籌。另外K2 thinking Mermaid 圖生成能力不錯“圖2”，而GPT-5 High 連基礎語法都會出錯… Q：Codex 文件已經可用，為何多此一舉優化？ A：兩個原因 - 文件一致性：隨著時間的遷移，codex 會混入大量無需沉澱的細節，甚至會犯一些比較基礎的錯誤，例如文檔小節排序排錯。定期整理很重要, 而由於codex + gpt-5 high 過度謹慎, 在整理文檔上能力表現很一般..... 用CC + K2 整合文檔的效率高不少 - 可讀性：codex 的內容資訊密度極高，讀起來咯嘴，如果你正在開發這個模組倒還好, 如果是給別人讀很容易脫離閱讀舒適區在此強烈推薦大家用kimi-k2-thinking 規整一下你的開發文檔

1. 來自最強模型ChatGPT 5 的判斷, 評測標準太細了 hchatgpt.com/share/690dc4d5… 2. 來自Gemini 2.5 Pro 的判斷 https://t.co/HrBAzR2dCd

来自海拉鲁编程客（@hylarucoder）的推文线程

作者信息

线程正文