DSA는 사실 굉장히 독특한 아이디어입니다. 사람들은 효율성 향상(혹은 그 자체로도) 때문에 DSA를 높이 평가할 뿐, 업계 표준인 계층별 선형/SWA+완전 소프트맥스 하이브리드 최적화 방식과는 근본적으로 다른 접근법입니다. 극히 자신감 넘치는 연구실만이 이런 기술을 실제 운영 환경에 적용할 수 있을 겁니다.
NSA가 훈련 후 희소성 분석이 막다른 길이라고 주장한 이후에 그들이 이러한 결정을 내렸다는 사실은 그들이 매몰 비용을 무시할 수 있는 능력을 보여준다. 그런데 NSA는 어떻게 됐는지 궁금하네요. 블록 단위 어텐션이 최적의 방법은 아니지만, DSA가 임시방편이라는 건 분명하죠.

