DSA é uma ideia realmente maluca. As pessoas só a apreciam pelos ganhos de eficiência (se é que apreciam), mas é um grande desvio filosófico do padrão da indústria de otimizar híbridos lineares/SWA por camada com softmax completo. Somente um laboratório muito confiante conseguiria colocar algo assim em produção.
O fato de terem feito isso depois da NSA, que argumentou que a esparsidade pós-treinamento era um beco sem saída, também demonstra sua capacidade de ignorar custos irrecuperáveis. Fico pensando no que aconteceu com a NSA. É evidente que a atenção em blocos não é a ideal, mas também que a DSA é apenas uma solução paliativa.

