看了一下Deepseek最新分享的DSA稀疏注意力的優化策略 個人理解如下: Deepseek的優化簡單來做了兩大部分,第一部分是對先前註意力機制的KV矩陣進行壓縮,當需要時再解壓,這樣減少了記憶體佔用 第二部分是引入閃電索引器,計算注意力前先計算粗略的索引分數,然後挑分數最高的那部分token進行精確注意力計算,把QK做8bit量化,但由於精度會損失,所以在此之前又增加了哈達瑪變換,使數值更均勻分佈,以便消除異常值,完成計算優化
原推文:
翻譯了一下影片👇�bilibili.com/video/BV17QSpB…EJP
