什麼才叫便宜大碗模型啊,戰術後仰。 本地部署大模型的福音來了!帶給大家月之暗面剛發表的Kimi-Linear-48B-A3B 的技術解析! 先來一句話版本──這才是便宜大碗速食模型。 48B-A3B 這個水平做到了1M上下文,然後還是線性注意力,非常省內存。傳統注意力上下文長度成長帶來的記憶體消耗是指數級的,這個是線性的,所以這個模型在CPU跑都沒事。我已經正在下載了,準備加入本地常用模型。 目前最大的不確定性是不知道召回水平咋樣,我準備下載下來給它塞幾本小說問問小說細節看看模型回答的咋樣來評估召回效果。想看結果的各位精神股東請點贊,超過100給大家週末放出評量。
基礎參數
比較數據
typo: 傳統注意力內存增長是二次方級別。








