X (Twitter)

這是一次*非凡的*發布。 Zyphra 是最頂尖的實驗室之一，但卻被嚴重低估，我希望現在他們能改變這種狀況，因為他們現在負責指導 AMD 進行機器學習。 CCGQA 基本上就是 MLA+，他們用 0.76B 的活躍記憶體擊敗了 Qwen3-4B，論文內容極為詳實。一定要讀。

「超越」這個詞用得有點重了，它的確效率更高，基礎模型也達到了相當的水平，但要達到Qwen成熟的後訓練模型的水平，還需要做很多工作，他們把這部分留到以後再做。不過，現在他們已經累積了相當多的後訓練知識。

來自 Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)（@teortaxesTex）的推文串