La verdad es que DSA es una idea un poco disparatada. La gente solo la aprecia por las mejoras de eficiencia (si es que las hay), pero supone una gran desviación filosófica del patrón de la industria de optimizar híbridos lineales/SWA + softmax completos por capas. Solo un laboratorio con mucha confianza puede implementar algo así en producción.
El hecho de que hicieran esto después de la NSA, que argumentaba que la escasez posterior al entrenamiento era un callejón sin salida, también habla de su capacidad para ignorar los costos hundidos. Me pregunto qué pasó con la NSA. Está claro que la atención por bloques no es óptima, pero también que la DSA es una solución provisional.

