2025 年更新:Transformer 神經網路(ChatGPT 中的 T)是誰發明的? Transformer 的發展歷程詳見技術說明 IDSIA-11-25(可在網路上輕鬆找到): ★ 1991年。關於現在被稱為非歸一化線性Transformer(ULTRA)的原始技術報告[FWP0][ULTRA]。鍵/值對稱為來源/目標。 ULTRA使用外積規則透過快速權重[FAST][FWP]關聯其自行定義的鍵/值對,並將由此產生的上下文相關的注意力映射應用於傳入的查詢。 ULTRA的計算成本與輸入規模呈線性關係,也就是說,文字量增加1000倍,所需的計算量也增加1000倍,這是可以接受的。與現代二次Transformer(見下文)一樣,1991年的ULTRA具有高度並行化能力。它是更廣泛的神經網路(NN)研究的副產品,這些神經網路學習對其他神經網路進行快速權重更改的程式設計[FWP,FWP0-9,FWPMETA1-10],當時被稱為快速權重控制器[FWP0]或快速權重程式設計器(FWP)[FWP]。 ULTRA 被提出作為循環神經網路的替代方案 [FWP0]。 1991 年的實驗與今天的實驗類似:給定一系列輸入,預測某種效果 [FWP0]。 ★ 1992年,基於1991年技術報告,發表了關於ULTRA的期刊論文[FWP1]。請注意,當時的術語與現在不同。 ★ 1993 年,循環 ULTRA 擴展 [FWP2] 引入了學習「內部注意力聚光燈」的術語。 ★ 2014年,端對端序列到序列模型[S2Sa,b,c,d]在自然語言處理領域開始流行。它們並非基於上文提到的1991年非歸一化線性Transformer[ULTRA],而是基於同一實驗室開發的長短期記憶(LSTM)循環神經網路。 2014年,這種方法與一種注意力機制[ATT14]結合。此註意力機制不像1991-93年的注意力機制[FWP0-2]那樣是線性化的,而是包含一個非線性softmax操作。首批大型語言模型(LLM)正是基於這種LSTM-注意力系統。參見2016-17年關於注意力機制的更多研究[ATT16a-17b]。 ★ 2017 年。現代二次 Transformer(「注意力機制就是你所需要的一切」),其運算能力隨輸入規模呈現二次方成長 [TR1],也就是說,文字量增加 1000 倍,運算量增加 100 萬倍。值得注意的是,在 1991 年 [ULTRA],沒有任何期刊會接受計算能力呈二次方增長的神經網絡,但到了 2017 年,計算成本已經足夠低,可以將二次 Transformer(一種快速權重編程器 [FWP])應用於大規模平行計算機上的大量數據。二次 Transformer 結合了 1991 年的加性外積快速權重原理 [FWP0-2] 和 softmax 函數(請參閱上文 2014 年):attendance(query, KEY, VALUE) ~ softmax(query KEY) VALUE。 ★ 2020 年,一篇新論文 [TR5] 使用術語「線性 Transformer」來描述一種更有效率的 Transformer 變體,該變體可以線性擴展,利用線性化的注意力 [TR5a]。 ★ 2021 年論文 [FWP6] 指出,非歸一化線性 Transformer [TR5-6] 實際上在數學上等價於 1991 年發布的快速權重控制器 [FWP0][ULTRA],而當時的計算成本比 2021 年高出一百萬倍。 ULTRA 和 FWP 概述 (2021) [FWP]。 ★ 2021-25 年,ULTRA 和其他 FWP(如 DeltaNet [FWP6])的擴展研究已成為主流研究方向,旨在開發高效且強大的序列模型 [TR6,TR6a][LT23-25][FWP23-25b]。 當然,神經網路中的簡單外積至少可以追溯到 Konorski 1948 年的非正式規則 [HEB48](後來有時被稱為「赫布規則」 [HEB49]),以及 Steinbuch 大約在 1960 年提出的學習矩陣的具體形式化實現 [ST61-63][AMH1-2][KOH72][LIT80]。另請參閱雙向聯想記憶 (1988) [KOS88]。然而,這些作者描述的是預先設定的規則,用於將使用者給定的模式相互關聯。與 1991 年以來的 ULTRA 和其他 Transformer 模型 [ULTRA][TR1] 不同,他們的神經網路並沒有學習如何使用這些規則來關聯使用者自行創建的鍵/值模式,而是透過反向傳播錯誤 [BP4] 來產生合適的鍵/值,並在適當的時機快速調整權重。 (Malsburg (1981) 等人提出的早期快速權重神經網路也沒有做到這一點 [FAST][FASTa,b][DLP]。) ********************* 參考文獻(其餘參考文獻請見:《誰發明了Transformer神經網路?》技術說明IDSIA-11-25,2025年11月 - 可在網路上輕鬆找到) [ATT] Juergen 的 AI 部落格(2020 年,2025 年更新):端到端可微序列神經注意力機制誕生 30 週年。此外還有目標條件強化學習。當時既有針對中央凹的硬注意力機制(1990 年),也有以 Transformer 模型結合線性化自註意力機制實現的軟注意力機制(1991-1993 年)[ULTRA]。如今,這兩種機制都非常流行。 [ATT14] D. Bahdanau、K. Cho、Y. Bengio。 「透過聯合學習對齊和翻譯的神經機器翻譯」。 2014-16。預印本 arXiv/1409.0473,2014-16。 [快速] C. vd Malsburg。技術報告 81-2,Abteilung f。 f. 神經生物學,馬克斯普朗克研究所Biophysical und Chemie,Goettingen,1981。第一篇關於快速權重或動態連結的論文。 [FWP] 1991年3月26日:神經網路學習如何對具有快速權重的神經網路進行程式設計-例如Transformer變體。 2021年:新內容!人工智慧博客,2021年3月26日,2025年更新。 [FWP0] J. Schmidhuber. 學習控制快速權重記憶:循環神經網路的替代方案。慕尼黑工業大學技術報告 FKI-147-91,1991 年 3 月 26 日。這是第一篇關於神經快速權重編程器 (FWP) 的論文,它將儲存和控制分離:一個慢速網路透過梯度下降來學習計算快速網路的權重變化。基於外積的版本(公式 5)現在被稱為非歸一化線性 Transformer 或「具有線性化自註意力的 Transformer」[ULTRA][FWP]。 [FWP1] J. Schmidhuber. 學習控制快速權重記憶:循環網路的替代方案。神經計算,4(1):131-139, 1992。基於[FWP0]。 [FWP2] J. Schmidhuber. 降低全循環網路中學習複雜度與時變變數數量之比。載於《國際人工神經網路會議論文集》,阿姆斯特丹,第460-463頁。 Springer出版社,1993年。本文是對1991年非歸一化線性Transformer [ULTRA] 的循環擴展,引入了「內部注意力聚光燈」學習的術語。這是第一個基於循環神經網路的快速權重編程器,它使用外積來編程權重矩陣的變化。 [FWP6] I. Schlag、K. Irie、J. Schmidhuber。 《線性變換器其實是快速權重編程器》。 ICML 2021。預印本:arXiv:2102.11174。該論文表明,未歸一化的線性變換器實際上在數學上等價於 1991 年發布的系統 [FWP0][ULTRA],而當時的計算成本比 2021 年高出一百萬倍。 [FWP7] K. Irie、I. Schlag、R. Csordas、J. Schmidhuber。 《利用遞歸快速權重編程器超越線性Transformer》。 NeurIPS 2021。預印本:arXiv:2106.06295 [HEB48] J. Konorski (1948). 條件反射與神經元組織。作者監督下從波蘭手稿翻譯。劍橋大學出版社,1948 年。 Konorski 在 Hebb [HEB49] 之前發表了所謂的「Hebb 規則」。 [HEB49] DO Hebb.《行為的組織》。 Wiley,紐約,1949 年。 Konorski [HEB48] 在 Hebb 之前發表了所謂的「Hebb 規則」。 [KOS88] B. Kosko. 雙向聯想記憶。 IEEE 系統、人與控制論彙刊,18(1):49-60, 1988。 [LT20] A. Katharopoulos, A. Vyas, N. Pappas, F. Fleuret. Transformers are RNNs: Fast autoregressive Transformers with linear attention. In Proc. Int. Conf. on Machine Learning (ICML), July 2020. [LT21] I. Bello. LambdaNetworks:無需注意力機制即可建模長程交互作用。預印本 arXiv:2102.08602。線性 Transformer 變體。 [LT23] K. Irie, R. Csordas, J. Schmidhuber. 線性變換及其遞歸和自引用擴展的實用計算能力。 EMNLP 2023。 [LT24] S. Yang, B. Wang, Y. Zhang, Y. Shen, Y. Kim. 基於序列長度的 Delta 規則並行化線性 Transformer。 NeurIPS 2024。 [LT25] S. Yang, J. Kautz, A. Hatamizadeh. Gated Delta Networks: Improving Mamba2 with Delta Rule. ICLR 2025. “Mamba2”本質上是1991年的ULTRA,其快速權重矩陣具有標量時間衰減因子。 [LT25b] R. Grazzi、J. Siems、A. Zela、JKH Franke、F. Hutter、M. Pontil。透過負特徵值解鎖線性 RNN 中的狀態追蹤。 ICLR 2025。顯示 delta 規則擴展 [FWP6][LT23] 比二次 Transformer 和其他樸素線性 Transformer 更具表達力(例如,它可以進行奇偶校驗和模運算)。 [LT25c] J. Siems、T. Carstensen、A. Zela、F. Hutter、M. Pontil、R. Grazzi。 DeltaProduct:透過 Householder 乘積改進線性 RNN 中的狀態追蹤。 ICLR 2025 工作坊 FM-Wild。透過額外的「微步」擴展 DeltaNet [FWP6][LT23]。 [S2Sa] ML Forcada 和 RP Ñeco. 用於翻譯的遞歸異質聯想記憶。 1997 年國際人工神經網路工作會議。 [S2Sb] T. Mikolov 和 G. Zweig,G. December。上下文相關的循環神經網路語言模型。 IEEE 口語語言技術研討會 (SLT),2012 年。 [S2Sc] A. Graves. 基於循環神經網路的序列轉換。表徵學習研討會,國際機器學習會議 (ICML),2012 [S2Sd] I. Sutskever, O. Vinyals, Quoc V. Le. 使用神經網路進行序列到序列學習。載於:神經資訊處理系統進展(NIPS),2014,3104-3112。 [ST61] K.斯坦巴赫。學習矩陣。控制論,1(1):36-45,1961。 [TR1] A. Vaswani、N. Shazeer、N. Parmar、J. Uszkoreit、L. Jones、AN Gomez、L. Kaiser、I. Polosukhin (2017)。您所需要的就是關注。 NIPS 2017,第 5998-6008 頁。 [TR2] J. Devlin、MW Chang、K. Lee、K. Toutanova (2018)。 BERT:用於語言理解的深度雙向Transformer的預訓練。預印本arXiv:1810.04805。 [TR3] K. Tran、A. Bisazza、C. Monz。 「循環對於模式層次結構的重要性」。 EMNLP 2018,第 4731-4736 頁。 ArXiv 預印本 1803.03585。 [TR4] M. Hahn.神經序列模型中自註意力的理論限制。計算語言學協會學報,第 8 卷,第 156-171 頁,2020 年。 [TR5] A. Katharopoulos, A. Vyas, N. Pappas, F. Fleuret. Transformers are RNNs: Fast autoregressive Transformers with linear attention. In Proc. Int. Conf. on Machine Learning (ICML), July 2020. [TR5a] Z. Shen, M. Zhang, H. Zhao, S. Yi, H. Li. 高效能注意力機制:具有線性複雜度的注意力機制。 WACV 2021。 [TR6] K. Choromanski、V. Likhosherstov、D. Dohan、X. Song、A. Gane、T. Sarlos、P. Hawkins、J. Davis、A. Mohiuddin、L. Kaiser 等。使用 Performers 重新思考注意力。在 2021 年國際學習表徵會議 (ICLR) 上。 [TR6a] H. Peng, N. Pappas, D. Yogatama, R. Schwartz, NA Smith, L. Kong. 隨機特徵注意力。 ICLR 2021。 [TR7] S. Bhattamishra、K. Ahuja、N. Goyal。 《Transformer辨識形式語言的能力與限制》。 EMNLP 2020。 [ULTRA] 關於 1991 年非歸一化線性 Transformer (ULTRA) 的參考文獻:原始技術報告(1991 年 3 月)[FWP0]。期刊論文(1992 年)[FWP1]。循環 ULTRA 擴展(1993 年),引入了學習「內部注意力聚光燈」的術語 [FWP2]。現代「二次」Transformer(2017 年:「注意力就是你所需要的一切」),其效能隨輸入規模呈二次方增長 [TR1]。 2020 年的論文 [TR5] 使用術語「線性 Transformer」來指稱一種更有效率的 Transformer 變體,該變體利用線性化注意力,實現線性擴展 [TR5a]。 2021 年的論文 [FWP6] 指出 ULTRA 可以追溯到 1991 年 [FWP0],當時的計算成本是現在的百萬倍。 ULTRA 和其他快速權重編程器概述(2021 年)[FWP]。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。