DSA 的確是個非常另類的想法。人們欣賞它只是因為它能提高效率(如果有的話),但它與業界優化逐層線性/SWA+全softmax混合模式的理念大相徑庭。只有非常有信心的實驗室才會將這種技術應用於生產環境。
他們這樣做是在美國國家安全局(NSA)認為訓練後的稀疏性是一條死路之後,這也說明了他們有能力無視沉沒成本。 我很好奇NSA後來怎麼樣了。很明顯,分塊注意力機制並非最適解,但DSA也只是權宜之計。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年12月17日 清晨6:59
DSA 的確是個非常另類的想法。人們欣賞它只是因為它能提高效率(如果有的話),但它與業界優化逐層線性/SWA+全softmax混合模式的理念大相徑庭。只有非常有信心的實驗室才會將這種技術應用於生產環境。
他們這樣做是在美國國家安全局(NSA)認為訓練後的稀疏性是一條死路之後,這也說明了他們有能力無視沉沒成本。 我很好奇NSA後來怎麼樣了。很明顯,分塊注意力機制並非最適解,但DSA也只是權宜之計。