奧特曼:合著我不建機房你們就不發新模型咯? 帶給大家月之暗面在Reddit 的AMA (Ask Me Anything) 的爆料內容!資訊量巨大! 首先最大的猛料莫過於ComfortableAsk449 (小道消息是這位是楊植麟) 回應Kimi-K3 什麼時候發布說"我們會在奧特曼的萬億美元數據中心建成之前發布"哈哈哈哈 言歸正傳, 給大家總結這次精華內容, 我覺得說了很多之前大家不知道的事情: 首先, 460萬美元訓練成本只是傳言, 但可以肯定訓練成本不會特別高, 官方團隊爆料訓練使用H800 GPU + Infiniband,數量比美國高端GPU 少,但充分利用每張卡. int4 精度大家都知道了, 選擇int4 對非Blackwell GPU 更友好,可以用marlin 內核. 關於Kimi K3, 很可能會在K3 中採用KDA 相關思想, 併中融入重大架構變化開發新能力, 根據社區觀察,每兩個月第一個週五發布(預測2026年1月9日). 其他新模型方面, 目前社區呼聲最高的是3B到48B這個區間, 100-120B MoE 社區也強烈需求. 另外透露可能會有新的視覺語言模型! (之前也有Kimi-VL) 技術方面, KDA + NoPE MLA 比full MLA + RoPE 表現更好, Muon 優化器首次在1T參數規模得到了驗證. K2 Thinking 使用端到端代理強化學習訓練. 團隊曾做過1M 上下文窗口(當時成本太高),未來版本會增加上下文長度(目前256K). 團隊承認當前版本將改進 其他消息還包括, OK Computer 馬上也要上kimi-k2-thinking 版本, 當前寫作風格是特調的, 避免諂媚和過度積極. #moonshotAI #kimik2 #kimik3 #kimivl #AMA
各種爆料包括kimi-k3 什麼時候發布等
社區提問/1
社區提問/2
總結













