L'idée du DSA est vraiment farfelue. On ne l'apprécie que pour les gains d'efficacité (quand il y en a), mais elle représente une rupture philosophique majeure avec les pratiques courantes d'optimisation par couches, qui consistent à utiliser des hybrides linéaires/SWA + softmax complets. Seul un laboratoire très expérimenté peut se permettre de mettre une telle technologie en production.
Le fait qu'ils aient agi ainsi après l'étude de la NSA, qui affirmait que la parcimonie post-entraînement était une impasse, témoigne également de leur capacité à ignorer les coûts irrécupérables. Je me demande ce qu'il est advenu de la NSA. Il est clair que l'attention par blocs est sous-optimale, mais aussi que la DSA n'est qu'une solution provisoire.

