X (Twitter)

昨晚Kimi K2 的訓練團隊在Reddit LocalLLaMA 頻道做了一次AMA 看了一下海外用戶對於K2-Thinking 的評價和國內在我評論區的評價還挺不一樣的。海外用戶對價格相對沒那麼敏感，當然也提到了按調用次數而不是按Token 這樣有些問題，總體來說還是跟關注技術和質量，當然也跟LocalLLaMA 這個頻道的屬性有關係。他們昨晚也在AMA 裡面回答了很多問題，我整理了一些有資訊量的： ---------------------------- KDA 會用在下一代旗艦模型Kimi 嗎？它的優勢是什麼？ KDA 混合結構（KDA hybrids with NoPE MLA）比傳統的MLA + RoPE 表現更好。它在預訓練和RL 階段都更快、更經濟、更有效率。可以更快預訓練、更快上線，也能服務更多用戶。可能會用在K3 的訓練裡面。 K2 會有視覺語言（VL）版本嗎？有的，正在做。 K2 明顯不像其他模型那麼討好用戶（不拍馬屁），是刻意設計的嗎？這是後訓練的結果嗎？ K2 的非迎合式人格是透過精心數據挑選設計出來的。預訓練和後訓練都對這種風格有貢獻。預訓練編碼了相關的先驗，而後訓練則為其增添了一些風味。目前Kimi for Coding 的計費方式是依API 請求數計算，極不透明，一次prompt 可能多次請求，是否能改成按token 或prompt？目前按請求數計費是因為：對使用者可見；更符合他們的成本結構。但確實理解用戶困惑，會考慮改進。請問你認為fp4 相比int4 真的是很重要的改進嗎？還是說int4 已經夠好的編碼了？選擇int4 是為了對非Blackwell GPU 更友好，同時利用現有的int4 推理marlin 核心。 K2 Thinking 模型比GPT-5 Thinking 更強，但輸出速度慢很多，是否刻意讓它「思考更久」？承認K2-Thinking 在推理階段更細緻、更耗時，但優化正在進行。專注於純文字代理程式是為了在短期內以犧牲換取達到SOTA 嗎，還是長期押注？要把視覺語言模型（VL）的資料和訓練做對需要時間，因此我們選擇先發布文字模型。那個460 萬美元的K2 Thinking 訓練費用是真的嗎？不是官方數字。很難量化訓練成本，因為很大一部分屬於研究和實驗。在製作K2 thinking 的過程中，你們遇到的最大挑戰是什麼？謝謝！一個挑戰是支持交錯的「思考- 工具- 思考- 工具」模式。這在LLMs 中是相對新穎的行為，實現起來需要大量工作才能正確運作。 K2 thinking 在幾個月來經過許多評測後，已經能抓到Sonnet 4.5 和Opus 4.1 漏掉的問題。說實話，感覺K2 thinking 只差一點系統提示（system prompt）調整就能達到同等程度。這一切都要歸功於你們的新架構嗎？還是你們的訓練資料品質也有提升？我認為擁有合適的評估方法和數據對效能至關重要。架構和優化器提高了樣本效率。你們訓練堆疊的硬體是什麼樣的？想了解你們的基礎設施如何與那些美國大型公司使用的堆疊相比？使用帶有Infiniband 的H800 GPU；它們不如美國的高階GPU，而且數量也不佔優勢，但我們把每一張卡都充分利用起來

来自歸藏(guizang.ai)（@op7418）的推文线程

作者信息

线程正文