昨晚Kimi K2 的訓練團隊在Reddit LocalLLaMA 頻道做了一次AMA 看了一下海外用戶對於K2-Thinking 的評價和國內在我評論區的評價還挺不一樣的。 海外用戶對價格相對沒那麼敏感,當然也提到了按調用次數而不是按Token 這樣有些問題,總體來說還是跟關注技術和質量,當然也跟LocalLLaMA 這個頻道的屬性有關係。 他們昨晚也在AMA 裡面回答了很多問題,我整理了一些有資訊量的: ---------------------------- KDA 會用在下一代旗艦模型Kimi 嗎?它的優勢是什麼? KDA 混合結構(KDA hybrids with NoPE MLA)比傳統的MLA + RoPE 表現更好。 它在預訓練和RL 階段都更快、更經濟、更有效率。 可以更快預訓練、更快上線,也能服務更多用戶。 可能會用在K3 的訓練裡面。 K2 會有視覺語言(VL)版本嗎? 有的,正在做。 K2 明顯不像其他模型那麼討好用戶(不拍馬屁),是刻意設計的嗎?這是後訓練的結果嗎? K2 的非迎合式人格是透過精心數據挑選設計出來的。 預訓練和後訓練都對這種風格有貢獻。預訓練編碼了相關的先驗,而後訓練則為其增添了一些風味。 目前Kimi for Coding 的計費方式是依API 請求數計算,極不透明,一次prompt 可能多次請求,是否能改成按token 或prompt? 目前按請求數計費是因為:對使用者可見;更符合他們的成本結構。但確實理解用戶困惑,會考慮改進。 請問你認為fp4 相比int4 真的是很重要的改進嗎?還是說int4 已經夠好的編碼了? 選擇int4 是為了對非Blackwell GPU 更友好,同時利用現有的int4 推理marlin 核心。 K2 Thinking 模型比GPT-5 Thinking 更強,但輸出速度慢很多,是否刻意讓它「思考更久」? 承認K2-Thinking 在推理階段更細緻、更耗時,但優化正在進行。 專注於純文字代理程式是為了在短期內以犧牲換取達到SOTA 嗎,還是長期押注? 要把視覺語言模型(VL)的資料和訓練做對需要時間,因此我們選擇先發布文字模型。 那個460 萬美元的K2 Thinking 訓練費用是真的嗎? 不是官方數字。很難量化訓練成本,因為很大一部分屬於研究和實驗。 在製作K2 thinking 的過程中,你們遇到的最大挑戰是什麼?謝謝! 一個挑戰是支持交錯的「思考- 工具- 思考- 工具」模式。這在LLMs 中是相對新穎的行為,實現起來需要大量工作才能正確運作。 K2 thinking 在幾個月來經過許多評測後,已經能抓到Sonnet 4.5 和Opus 4.1 漏掉的問題。說實話,感覺K2 thinking 只差一點系統提示(system prompt)調整就能達到同等程度。這一切都要歸功於你們的新架構嗎?還是你們的訓練資料品質也有提升? 我認為擁有合適的評估方法和數據對效能至關重要。架構和優化器提高了樣本效率。 你們訓練堆疊的硬體是什麼樣的?想了解你們的基礎設施如何與那些美國大型公司使用的堆疊相比? 使用帶有Infiniband 的H800 GPU;它們不如美國的高階GPU,而且數量也不佔優勢,但我們把每一張卡都充分利用起來
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
