Eché un vistazo a las últimas estrategias de optimización que Deepseek ha compartido para la atención dispersa de DSA. Mi interpretación personal es la siguiente: En pocas palabras, las optimizaciones de Deepseek constan de dos partes principales. La primera consiste en comprimir la matriz clave-valor utilizada en el mecanismo de atención anterior y descomprimirla solo cuando sea necesario, reduciendo así el uso de memoria. La segunda parte presenta el indexador Lightning, que calcula una puntuación de índice aproximada antes de calcular la atención. A continuación, selecciona los tokens con las puntuaciones más altas para un cálculo preciso de la atención, realizando una cuantificación de 8 bits en QK. Sin embargo, debido a la pérdida de precisión, se añade previamente una transformada de Hadamard para distribuir los valores de forma más uniforme, eliminando así los valores atípicos y completando la optimización computacional.
Tweet original:
Traduje elbilibili.com/video/BV17QSpB…ttps://t.co/RRoSDt8EJP
