私は、DSA スパース アテンションの最適化戦略に関する Deepseek の最新の共有を見てみました。 私の個人的な理解は次のとおりです。 簡単に言えば、Deepseekの最適化は主に2つの部分から構成されます。1つ目は、以前のアテンションメカニズムで使用されるキーと値のマトリックスを圧縮し、必要な場合にのみ解凍することでメモリ使用量を削減することです。 パート2では、Lightning Indexerを紹介します。Lightning Indexerは、Attentionを計算する前に大まかなインデックススコアを計算します。その後、QKで8ビット量子化を行い、最も高いスコアを持つトークンを選択して正確なAttentionを計算します。ただし、精度が失われるため、事前にアダマール変換を追加して値をより均等に分散させることで、外れ値を排除し、計算の最適化を完了します。
元のツイート:
以下のビデオを翻訳しbilibili.com/video/BV17QSpB…RoSDt8EJP
