Analisei a publicação mais recente da Deepseek sobre estratégias de otimização para atenção esparsa em DSA (Deep Seek and Standard). Meu entendimento pessoal é o seguinte: Em termos simples, as otimizações do Deepseek consistem em duas partes principais. A primeira parte é comprimir a matriz de chave-valor usada no mecanismo de atenção anterior e descomprimi-la somente quando necessário, reduzindo assim o uso de memória. A segunda parte apresenta o Lightning Indexer, que calcula uma pontuação de índice aproximada antes de calcular a atenção. Em seguida, seleciona os tokens com as pontuações mais altas para o cálculo preciso da atenção, realizando uma quantização de 8 bits em QK. No entanto, como há perda de precisão, uma transformação de Hadamard é adicionada previamente para distribuir os valores de forma mais uniforme, eliminando assim os outliers e completando a otimização computacional.
Tweet original:
Eu traduzibilibili.com/video/BV17QSpB…ttps://t.co/RRoSDt8EJP
