J'ai jeté un coup d'œil au dernier partage de Deepseek sur les stratégies d'optimisation pour l'attention clairsemée dans les DSA. Voici ma compréhension personnelle : En termes simples, les optimisations de Deepseek se composent de deux parties principales. La première consiste à compresser la matrice clé-valeur utilisée dans le mécanisme d'attention précédent et à la décompresser uniquement en cas de besoin, réduisant ainsi l'utilisation de la mémoire. La deuxième partie présente l'indexeur Lightning, qui calcule un score d'index approximatif avant le calcul de l'attention. Il sélectionne ensuite les jetons ayant les scores les plus élevés pour un calcul précis de l'attention, en effectuant une quantification 8 bits sur QK. Cependant, la précision étant altérée, une transformation de Hadamard est appliquée au préalable afin de répartir les valeurs plus uniformément, éliminant ainsi les valeurs aberrantes et finalisant l'optimisation du calcul.
Tweet original :
J'ai tradubilibili.com/video/BV17QSpB…👇🏻 https://t.co/RRoSDt8EJP
