X (Twitter)

DSA 的確是個非常另類的想法。人們欣賞它只是因為它能提高效率（如果有的話），但它與業界優化逐層線性/SWA+全softmax混合模式的理念大相徑庭。只有非常有信心的實驗室才會將這種技術應用於生產環境。

他們這樣做是在美國國家安全局（NSA）認為訓練後的稀疏性是一條死路之後，這也說明了他們有能力無視沉沒成本。我很好奇NSA後來怎麼樣了。很明顯，分塊注意力機制並非最適解，但DSA也只是權宜之計。

來自 Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)（@teortaxesTex）的推文串