NeurIPS 2025 最佳論文獎頒給了這篇:Attention 機制讓語言模型自己判斷哪些token 更重要,但它有局限性——比如,不管token 本身重不重要,它都容易過度關注靠前的那些token。 Gating 機制(選擇性地抑製或放大神經網路中資訊的流動)改善了其他架構,所以研究人員也嘗試將它加到Attention 裡。 但之前的嘗試通常把gating 和其他架構改動打包在一起,很難單獨評估gating 的貢獻。 這篇論文把這些影響分開了,系統地測試了超過30 種gating 變體,模型參數高達150 億。 在標準的Transformer 層中,每個attention head 計算出一個加權的值組合;head 的輸出會被連接起來,然後通過一個最終的線性投影。 這篇論文裡表現最好的方法,是在連接之前插入一個額外的操作:每個head 的輸出,都乘以一個從當前token 表示計算出的learned gate(逐元素或逐head 相乘,逐元素效果最好)。 這樣,每個head 就可以根據上下文來抑製或保留它的貢獻。 這些架構上的改變帶來了實際的好處,不只是小小的benchmark 提升: 1. 訓練變得更穩定,支援更高的學習率,而baseline 模型在這種學習率下會發散。 2. Gating 也大大減少了"attention sinks"-早期token 吸收過多attention 的情況。 這反過來又與長文本benchmark 上的顯著改進有關,一旦使用標準技術擴展context window,效果就更明顯。 想深入了解的,可以去ChapterPal 上看看論文,或是直接閱讀PDF.
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
