X (Twitter)

2025 年更新：谁发明了 Transformer 神经网络（ChatGPT 中的 T）？Transformer 演进时间线 https://t.co/7EJPAnRKvI ★ 1991年。关于现在被称为非归一化people.idsia.ch/~juergen/who-i…技术报告[FWP0][ULTRA]。键/值对被称为源/目标。ULTRA使用外积规则通过快速权重[FAST][FWP]关联其自行定义的键/值对，并将由此产生的上下文相关的注意力映射应用于传入的查询。ULTRA的计算成本与输入规模呈线性关系，也就是说，文本量增加1000倍，所需的计算量也增加1000倍，这是可以接受的。与现代二次Transformer（见下文）一样，1991年的ULTRA具有高度并行化能力。它是更广泛的神经网络（NN）研究的副产品，这些神经网络学习对其他神经网络进行快速权重更改的编程[FWP,FWP0-9,FWPMETA1-10]，当时被称为快速权重控制器[FWP0]或快速权重编程器（FWP）[FWP]。 ULTRA 被提出作为循环神经网络的替代方案 [FWP0]。1991 年的实验与今天的实验类似：给定一系列输入，预测某种效果 [FWP0]。 ★ 1992年，基于1991年技术报告，发表了关于ULTRA的期刊论文[FWP1]。请注意，当时的术语与现在不同。 ★ 1993 年，循环 ULTRA 扩展 [FWP2] 引入了学习“内部注意力聚光灯”的术语。 ★ 2014年，端到端序列到序列模型[S2Sa,b,c,d]在自然语言处理领域开始流行。它们并非基于上文提到的1991年非归一化线性Transformer[ULTRA]，而是基于同一实验室开发的长短期记忆（LSTM）循环神经网络。2014年，这种方法与一种注意力机制[ATT14]相结合。该注意力机制不像1991-93年的注意力机制[FWP0-2]那样是线性化的，而是包含一个非线性softmax操作。首批大型语言模型（LLM）正是基于这种LSTM-注意力系统。参见2016-17年关于注意力机制的更多研究[ATT16a-17b]。 ★ 2017 年。现代二次 Transformer（“注意力机制就是你所需要的一切”），其计算能力随输入规模呈二次方增长 [TR1]，也就是说，文本量增加 1000 倍，计算量增加 100 万倍。值得注意的是，在 1991 年 [ULTRA]，没有任何期刊会接受计算能力呈二次方增长的神经网络，但到了 2017 年，计算成本已经足够低，可以将二次 Transformer（一种快速权重编程器 [FWP]）应用于大规模并行计算机上的大量数据。二次 Transformer 结合了 1991 年的加性外积快速权重原理 [FWP0-2] 和 softmax 函数（参见上文 2014 年）：attendance(query, KEY, VALUE) ~ softmax(query KEY) VALUE。 ★ 2020 年，一篇新论文 [TR5] 使用术语“线性 Transformer”来描述一种更高效的 Transformer 变体，该变体可以线性扩展，利用线性化的注意力 [TR5a]。 ★ 2021 年论文 [FWP6] 指出，非归一化线性 Transformer [TR5-6] 实际上在数学上等价于 1991 年发布的快速权重控制器 [FWP0][ULTRA]，而当时的计算成本比 2021 年高出一百万倍。ULTRA 和 FWP 概述 (2021) [FWP]。 ★ 2021-25 年，ULTRA 和其他 FWP（如 DeltaNet [FWP6]）的扩展研究已成为主流研究方向，旨在开发高效且强大的序列模型 [TR6,TR6a][LT23-25][FWP23-25b]。当然，神经网络中的简单外积至少可以追溯到 Konorski 1948 年的非正式规则 [HEB48]（后来有时被称为“赫布规则” [HEB49]），以及 Steinbuch 大约在 1960 年提出的学习矩阵的具体形式化实现 [ST61-63][AMH1-2][KOH72][LIT74][PAL80]。另见双向联想记忆 (1988) [KOS88]。然而，这些作者描述的是预先设定的规则，用于将用户给定的模式相互关联。与 1991 年以来的 ULTRA 和其他 Transformer 模型 [ULTRA][TR1] 不同，他们的神经网络并没有学习如何使用这些规则来关联用户自行创建的键/值模式，而是通过反向传播错误 [BP4] 来生成合适的键/值，并在适当的时机快速调整权重。（Malsburg (1981) 等人提出的早期快速权重神经网络也没有做到这一点 [FAST][FASTa,b][DLP]。） ************* 参考文献（其余参考文献见：《谁发明了Transformer神经网络？》技术说明IDSIA-11-25，2025年11月 - 请参阅上方链接） [ATT] Juergen 的 AI 博客（2020 年，2025 年更新）：端到端可微序列神经注意力机制诞生 30 周年。此外还有目标条件强化学习。当时既有针对中央凹的硬注意力机制（1990 年），也有以 Transformer 模型结合线性化自注意力机制实现的软注意力机制（1991-1993 年）[ULTRA]。如今，这两种机制都非常流行。 [ATT14] D. Bahdanau、K. Cho、Y. Bengio。“通过联合学习对齐和翻译的神经机器翻译”。2014-16。预印本 arXiv/1409.0473，2014-16。 [快速] C. vd Malsburg。技术报告 81-2，Abteilung f。 f. 神经生物学，马克斯普朗克研究所Biophysical und Chemie，Goettingen，1981。第一篇关于快速权重或动态链接的论文。 [FWP] 1991年3月26日：神经网络学习如何对具有快速权重的神经网络进行编程——例如Transformer变体。2021年：新内容！人工智能博客，2021年3月26日，2025年更新。 [FWP0] J. Schmidhuber. 学习控制快速权重记忆：循环神经网络的替代方案。慕尼黑工业大学技术报告 FKI-147-91，1991 年 3 月 26 日。这是第一篇关于神经快速权重编程器 (FWP) 的论文，它将存储和控制分离：一个慢速网络通过梯度下降来学习计算快速网络的权重变化。基于外积的版本（公式 5）现在被称为非归一化线性 Transformer 或“具有线性化自注意力的 Transformer”[ULTRA][FWP]。 [FWP1] J. Schmidhuber. 学习控制快速权重记忆：循环网络的替代方案。神经计算，4(1):131-139, 1992。基于[FWP0]。 [FWP2] J. Schmidhuber. 降低全循环网络中学习复杂度与时变变量数量之比。载于《国际人工神经网络会议论文集》，阿姆斯特丹，第460-463页。Springer出版社，1993年。本文是对1991年非归一化线性Transformer [ULTRA] 的循环扩展，引入了“内部注意力聚光灯”学习的术语。这是第一个基于循环神经网络的快速权重编程器，它使用外积来编程权重矩阵的变化。 [FWP6] I. Schlag、K. Irie、J. Schmidhuber。《线性变换器其实是快速权重编程器》。ICML 2021。预印本：arXiv:2102.11174。该论文表明，未归一化的线性变换器实际上在数学上等价于 1991 年发布的系统 [FWP0][ULTRA]，而当时的计算成本比 2021 年高出一百万倍。 [FWP7] K. Irie、I. Schlag、R. Csordas、J. Schmidhuber。《利用递归快速权重编程器超越线性Transformer》。NeurIPS 2021。预印本：arXiv:2106.06295 [HEB48] J. Konorski (1948). 条件反射和神经元组织。作者监督下从波兰手稿翻译。剑桥大学出版社，1948 年。Konorski 在 Hebb [HEB49] 之前发表了所谓的“Hebb 规则”。 [HEB49] DO Hebb.《行为的组织》。Wiley，纽约，1949 年。Konorski [HEB48] 在 Hebb 之前发表了所谓的“Hebb 规则”。 [KOS88] B. Kosko. 双向联想记忆。IEEE 系统、人与控制论汇刊，18(1):49-60, 1988。 [LT20] A. Katharopoulos, A. Vyas, N. Pappas, F. Fleuret. Transformers are RNNs: Fast autoregressive Transformers with linear attention. In Proc. Int. Conf. on Machine Learning (ICML), July 2020. [LT21] I. Bello. LambdaNetworks：无需注意力机制即可建模长程交互。预印本 arXiv:2102.08602。线性 Transformer 变体。 [LT23] K. Irie, R. Csordas, J. Schmidhuber. 线性变换及其递归和自引用扩展的实用计算能力。EMNLP 2023。 [LT24] S. Yang, B. Wang, Y. Zhang, Y. Shen, Y. Kim. 基于序列长度的 Delta 规则并行化线性 Transformer。NeurIPS 2024。 [LT25] S. Yang, J. Kautz, A. Hatamizadeh. Gated Delta Networks: Improving Mamba2 with Delta Rule. ICLR 2025. “Mamba2”本质上是1991年的ULTRA，其快速权重矩阵具有标量时间衰减因子。 [LT25b] R. Grazzi、J. Siems、A. Zela、JKH Franke、F. Hutter、M. Pontil。通过负特征值解锁线性 RNN 中的状态跟踪。ICLR 2025。表明 delta 规则扩展 [FWP6][LT23] 比二次 Transformer 和其他朴素线性 Transformer 更具表达力（例如，它可以进行奇偶校验和模运算）。 [LT25c] J. Siems、T. Carstensen、A. Zela、F. Hutter、M. Pontil、R. Grazzi。DeltaProduct：通过 Householder 乘积改进线性 RNN 中的状态跟踪。ICLR 2025 工作坊 FM-Wild。通过额外的“微步”扩展 DeltaNet [FWP6][LT23]。 [S2Sa] ML Forcada 和 RP Ñeco. 用于翻译的递归异质联想记忆。1997 年国际人工神经网络工作会议。 [S2Sb] T. Mikolov 和 G. Zweig，G. December。上下文相关的循环神经网络语言模型。IEEE 口语语言技术研讨会 (SLT)，2012 年。 [S2Sc] A. Graves. 基于循环神经网络的序列转换。表征学习研讨会，国际机器学习会议 (ICML)，2012 [S2Sd] I. Sutskever, O. Vinyals, Quoc V. Le. 使用神经网络进行序列到序列学习。载于：神经信息处理系统进展（NIPS），2014，3104-3112。 [ST61] K.斯坦巴赫。学习矩阵。控制论，1(1)：36-45，1961。 [TR1] A. Vaswani、N. Shazeer、N. Parmar、J. Uszkoreit、L. Jones、AN Gomez、L. Kaiser、I. Polosukhin (2017)。您所需要的就是关注。 NIPS 2017，第 5998-6008 页。 [TR2] J. Devlin、MW Chang、K. Lee、K. Toutanova (2018)。BERT：用于语言理解的深度双向Transformer的预训练。预印本arXiv:1810.04805。 [TR3] K. Tran、A. Bisazza、C. Monz。“循环对于建模层次结构的重要性”。EMNLP 2018，第 4731-4736 页。ArXiv 预印本 1803.03585。 [TR4] M. Hahn.神经序列模型中自注意力的理论局限性。计算语言学协会学报，第 8 卷，第 156-171 页，2020 年。 [TR5] A. Katharopoulos, A. Vyas, N. Pappas, F. Fleuret. Transformers are RNNs: Fast autoregressive Transformers with linear attention. In Proc. Int. Conf. on Machine Learning (ICML), July 2020. [TR5a] Z. Shen, M. Zhang, H. Zhao, S. Yi, H. Li. 高效注意力机制：具有线性复杂度的注意力机制。WACV 2021。 [TR6] K. Choromanski、V. Likhosherstov、D. Dohan、X. Song、A. Gane、T. Sarlos、P. Hawkins、J. Davis、A. Mohiuddin、L. Kaiser 等。使用 Performers 重新思考注意力。在 2021 年国际学习表征会议 (ICLR) 上。 [TR6a] H. Peng, N. Pappas, D. Yogatama, R. Schwartz, NA Smith, L. Kong. 随机特征注意力。ICLR 2021。 [TR7] S. Bhattamishra、K. Ahuja、N. Goyal。《Transformer识别形式语言的能力和局限性》。EMNLP 2020。 [ULTRA] 关于 1991 年非归一化线性 Transformer (ULTRA) 的参考文献：原始技术报告（1991 年 3 月）[FWP0]。期刊论文（1992 年）[FWP1]。循环 ULTRA 扩展（1993 年），引入了学习“内部注意力聚光灯”的术语 [FWP2]。现代“二次”Transformer（2017 年：“注意力就是你所需要的一切”），其性能随输入规模呈二次方增长 [TR1]。2020 年的论文 [TR5] 使用术语“线性 Transformer”来指代一种更高效的 Transformer 变体，该变体利用线性化注意力，性能呈线性增长 [TR5a]。2021 年的论文 [FWP6] 指出 ULTRA 可以追溯到 1991 年 [FWP0]，当时的计算成本是现在的百万倍。ULTRA 和其他快速权重编程器概述（2021 年）[FWP]。参见 ChatGPT 中的 T。

来自 Jürgen Schmidhuber（@SchmidhuberAI）的推文线程

作者信息

线程正文