X (Twitter)

DSA 的确是个非常另类的想法。人们欣赏它仅仅是因为它能提高效率（如果有的话），但它与业界优化逐层线性/SWA+全softmax混合模式的理念大相径庭。只有非常有信心的实验室才会将这种技术应用于生产环境。

他们这样做是在美国国家安全局（NSA）认为训练后的稀疏性是一条死路之后，这也说明了他们有能力无视沉没成本。我很好奇NSA后来怎么样了。很明显，分块注意力机制并非最优解，但DSA也只是权宜之计。

来自 Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)（@teortaxesTex）的推文线程