Yangyi (@Yangyixxxx): 看了一下Deepseek最新分享的DSA稀疏注意力的优化策略个人理解如下： Deepseek的优化简单来讲做了两大部分，第一部分是对之前…

Eché un vistazo a las últimas estrategias de optimización que Deepseek ha compartido para la atención dispersa de DSA. Mi interpretación personal es la siguiente: En pocas palabras, las optimizaciones de Deepseek constan de dos partes principales. La primera consiste en comprimir la matriz clave-valor utilizada en el mecanismo de atención anterior y descomprimirla solo cuando sea necesario, reduciendo así el uso de memoria. La segunda parte presenta el indexador Lightning, que calcula una puntuación de índice aproximada antes de calcular la atención. A continuación, selecciona los tokens con las puntuaciones más altas para un cálculo preciso de la atención, realizando una cuantificación de 8 bits en QK. Sin embargo, debido a la pérdida de precisión, se añade previamente una transformada de Hadamard para distribuir los valores de forma más uniforme, eliminando así los valores atípicos y completando la optimización computacional.

Tweet original:

Traduje elbilibili.com/video/BV17QSpB…ttps://t.co/RRoSDt8EJP

Hilo de Yangyi (@Yangyixxxx)

Información del autor

Contenido del hilo