這是一次*非凡的*發布。 Zyphra 是最頂尖的實驗室之一,但卻被嚴重低估,我希望現在他們能改變這種狀況,因為他們現在負責指導 AMD 進行機器學習。 CCGQA 基本上就是 MLA+,他們用 0.76B 的活躍記憶體擊敗了 Qwen3-4B,論文內容極為詳實。一定要讀。
「超越」這個詞用得有點重了,它的確效率更高,基礎模型也達到了相當的水平,但要達到Qwen成熟的後訓練模型的水平,還需要做很多工作,他們把這部分留到以後再做。不過,現在他們已經累積了相當多的後訓練知識。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月25日 凌晨12:10
這是一次*非凡的*發布。 Zyphra 是最頂尖的實驗室之一,但卻被嚴重低估,我希望現在他們能改變這種狀況,因為他們現在負責指導 AMD 進行機器學習。 CCGQA 基本上就是 MLA+,他們用 0.76B 的活躍記憶體擊敗了 Qwen3-4B,論文內容極為詳實。一定要讀。
「超越」這個詞用得有點重了,它的確效率更高,基礎模型也達到了相當的水平,但要達到Qwen成熟的後訓練模型的水平,還需要做很多工作,他們把這部分留到以後再做。不過,現在他們已經累積了相當多的後訓練知識。