저는 DSA 스파스 어텐션을 위한 최적화 전략에 대한 Deepseek의 최신 공유 내용을 살펴보았습니다. 개인적으로 제가 이해하는 바는 다음과 같습니다. 간단히 말해서, Deepseek의 최적화는 두 가지 주요 부분으로 구성됩니다. 첫 번째 부분은 이전 어텐션 메커니즘에 사용된 키-값 행렬을 압축하고 필요할 때만 압축을 해제하여 메모리 사용량을 줄이는 것입니다. 두 번째 부분에서는 어텐션 계산 전에 대략적인 인덱스 점수를 계산하는 라이트닝 인덱서(Lightning Indexer)를 소개합니다. 그런 다음, 정확한 어텐션 계산을 위해 가장 높은 점수를 가진 토큰을 선택하고, QK에 8비트 양자화를 수행합니다. 하지만 정밀도가 떨어지기 때문에, 값을 더 균등하게 분배하기 위해 아다마르 변환을 미리 추가하여 이상치를 제거하고 계산 최적화를 완료합니다.
원래 트윗:
아래 영상을 번역했bilibili.com/video/BV17QSpB…RRoSDt8EJP
