Transformerニューラルネットワーク(ChatGPTのT)を発明したのは誰? Transformerの進化のタイムライン https://t.co/7EJPAnRKvI ★ 19people.idsia.ch/~juergen/who-i…(ULTRA)[FWP0][ULTRA]と呼ばれるものに関する最初の技術レポート。KEY/VALUEはFROM/TOと呼ばれていました。ULTRAは外積規則を用いて、独自に考案したKEY/VALUEを高速重み[FAST][FWP]を介して関連付け、得られたコンテキスト依存のアテンションマッピングを入力クエリに適用します。ULTRAの計算コストは入力サイズに比例して増大します。つまり、テキスト量が1,000倍になると計算量も1,000倍になりますが、これは許容範囲内です。現代の2次トランスフォーマー(下記参照)と同様に、1991年のULTRAは高度な並列化が可能です。これは、他のニューラルネットワーク(NN)の高速な重み変更をプログラムすることを学習するニューラルネットワーク(NN)に関する、より一般的な研究の副産物でした[FWP、FWP0-9、FWPMETA1-10]。当時は高速重みコントローラ[FWP0]または高速重みプログラマ(FWP)[FWP]と呼ばれていました。ULTRAは、リカレントNNの代替として提案されました[FWP0]。1991年の実験は、今日の実験と同様、一連の入力が与えられた場合に何らかの効果を予測するというものでした[FWP0]。 ★ 1992年。1991年の技術報告書に基づいたULTRAに関するジャーナル論文[FWP1]。当時の用語が異なっていたことに注意。 ★ 1993. 反復型 ULTRA 拡張 [FWP2] で「注意の内部スポットライト」を学習するという用語を導入。 ★ 2014年。エンドツーエンドのシーケンスツーシーケンスモデル [S2Sa,b,c,d] が自然言語処理において普及しました。これらのモデルは、前述の1991年の非正規化線形トランスフォーマー [ULTRA] ではなく、同じ研究室のLong Short-Term Memory (LSTM) リカレントNNに基づいています。2014年には、このアプローチは、1991-93年のアテンション [FWP0-2] のように線形化されていないものの、非線形ソフトマックス演算を含むアテンションメカニズム [ATT14] と統合されました。最初の大規模言語モデル (LLM) は、このようなLSTMアテンションシステムに基づいていました。2016-17年のアテンションに関する追加研究 [ATT16a-17b] を参照してください。 ★ 2017年。現代の二次方程式トランスフォーマー(「必要なのは注意力だけ」)は、入力サイズに対して二次的にスケーリングします [TR1]。つまり、1,000倍のテキストに対して、1,000,000倍の計算量が必要になります。1991年 [ULTRA] には、二次的にスケーリングするニューラルネットワークを採用するジャーナルは存在しませんでしたが、2017年までに計算コストは大幅に低下し、超並列コンピュータ上の大量データに二次方程式トランスフォーマー(一種の高速重み付けプログラマ [FWP])を適用できるようになりました。二次方程式トランスフォーマーは、1991年の加法外積高速重み付け原理 [FWP0-2] とソフトマックス(上記2014年を参照)を組み合わせたものです。つまり、注意力(クエリ、キー、値)〜ソフトマックス(クエリキー)値です。 ★ 2020。線形化されたアテンション[TR5a]を活用して線形にスケーリングする、より効率的なTransformerバリアントを表す用語「線形Transformer」を使用した新しい論文[TR5]。 ★ 2021年。論文[FWP6]では、正規化されていない線形トランスフォーマー[TR5-6]が、コンピューティングが2021年よりも100万倍高価だったときに公開された1991年の高速重みコントローラー[FWP0][ULTRA]と数学的に同等であることを指摘しています。ULTRAとFWPの概要(2021)[FWP]。 ★ 2021-25. ULTRAや他のFWP(DeltaNet [FWP6]など)の拡張に関する研究が主流となり、効率的かつ強力なシーケンスモデルの開発を目指しています[TR6,TR6a][LT23-25][FWP23-25b]。 もちろん、ニューラルネットワークにおける単純な外積は、少なくとも1948年のコノルスキーの非公式な規則[HEB48](後に「ヘブ規則」[HEB49]と呼ばれることもある)と、1960年頃のスタインブックの学習マトリックスによる具体的な形式的実装[ST61-63][AMH1-2][KOH72][LIT74][PAL80]にまで遡ります。双方向連想メモリ(1988)[KOS88]も参照してください。しかし、これらの著者は、ユーザーが指定したパターンを互いに関連付けるための、あらかじめ設定された規則を記述していました。ULTRAや1991年以降の他のトランスフォーマー[ULTRA][TR1]とは異なり、彼らのニューラルネットワークは、規則を通してエラーを逆伝播[BP4]することで、自ら考案したキー/値パターンを関連付ける規則を学習し、適切なタイミングで適切なキー/値を生成し、重みの有用な高速変化を生み出すようなことはしませんでした。 (Malsburg(1981)や他の研究者による高速重み付けの初期のNN [FAST][FASTa,b][DLP]も同様でした。) ********** 選択された参考文献(残りの参考文献:Who Invented Transformer Neural Networks? Technical Note IDSIA-11-25、2025年11月 - 上記のリンクを参照) [ATT] JuergenのAIブログ(2020年、2025年更新):エンドツーエンドで微分可能なシーケンシャルニューラルアテンション30周年。さらに目標条件付き強化学習も。中心窩に対するハードアテンション(1990年)と、線形化された自己アテンションを備えたトランスフォーマーの形態によるソフトアテンション(1991~93年)の両方が存在しました[ULTRA]。現在では、どちらのタイプも非常に人気があります。 [ATT14] D. Bahdanau, K. Cho, Y. Bengio. アラインメントと翻訳の共同学習によるニューラル機械翻訳. 2014-16. プレプリント arXiv/1409.0473, 2014-16. [速い] C. vd マルスブルク。技術レポート 81-2、アブタイルング f。神経生物学、マックス プランク研究所 f. 『Biophysik und Chemie』、ゲッティンゲン、1981 年。高速重みまたは動的リンクに関する最初の論文。 [FWP] 1991年3月26日: ニューラルネットは、Transformerバリアントのような高速重み付けニューラルネットのプログラミングを学習します。2021年: 新着情報!AIブログ、2021年3月26日、2025年更新。 [FWP0] J. Schmidhuber. 「高速重みメモリの制御学習:リカレントネットの代替」.技術報告書 FKI-147-91,ミュンヘン工科大学,1991年3月26日.記憶と制御を分離したニューラル高速重みプログラマ(FWP)に関する最初の論文:低速ネットが勾配降下法によって学習し、高速ネットの重み変化を計算する。外積ベースのバージョン(式5)は現在、非正規化線形Transformerまたは「線形化自己注意付きTransformer」として知られている[ULTRA][FWP]。 [FWP1] J. Schmidhuber. 高速重みメモリの制御学習:リカレントネットの代替. Neural Computation, 4(1):131-139, 1992. [FWP0]に基づく. [FWP2] J. Schmidhuber. 完全再帰型ネットワークにおける学習複雑性と時変変数数の比率の低減.アムステルダムで開催された国際人工ニューラルネットワーク会議の議事録,460-463ページ.Springer,1993年.1991年の非正規化線形トランスフォーマー[ULTRA]の再帰型拡張であり、「内部注目点」学習という用語を導入した.重み行列の変化を外積を用いてプログラムする,初の再帰型NNベースの高速重みプログラマ. [FWP6] I. Schlag, K. Irie, J. Schmidhuber. 線形トランスフォーマーは秘密に高速な重み付けプログラマである. ICML 2021. プレプリント: arXiv:2102.11174. 正規化されていない線形トランスフォーマーが、コンピューティングコストが2021年よりも100万倍高かった1991年に発表されたシステム [FWP0][ULTRA] と数学的に等価であることを示します。 [FWP7] K. Irie, I. Schlag, R. Csordas, J. Schmidhuber. 線形トランスフォーマーの限界を超えるリカレント高速重みプログラマー. NeurIPS 2021. プレプリント: arXiv:2106.06295 [HEB48] J. コノルスキー (1948). 条件反射とニューロン組織化. 著者監修によるポーランド語原稿からの翻訳. ケンブリッジ大学出版局, 1948. コノルスキーはヘッブより先にいわゆる「ヘッブの法則」を発表した [HEB49]. [HEB49] DOヘブ著『行動の組織化』ワイリー社、ニューヨーク、1949年。コノルスキー[HEB48]はヘブに先立ち、いわゆる「ヘブルール」を発表した。 [KOS88] B. Kosko. 双方向連想記憶. IEEE Transactions on Systems, Man, and Cybernetics, 18(1):49-60, 1988. [LT20] A. Katharopoulos, A. Vyas, N. Pappas, F. Fleuret. 「Transformers are RNN: 線形アテンションを備えた高速自己回帰Transformers」 Proc. Int. Conf. on Machine Learning (ICML), 2020年7月. [LT21] I. Bello. LambdaNetworks:注意を必要としない長距離相互作用のモデリング. プレプリント arXiv:2102.08602. 線形トランスフォーマーの亜種。 [LT23] K. Irie, R. Csordas, J. Schmidhuber. 線形変換器の実用的な計算能力とその再帰的および自己参照的拡張. EMNLP 2023. [LT24] S. Yang, B. Wang, Y. Zhang, Y. Shen, Y. Kim. シーケンス長に関するデルタ則を用いた線形トランスフォーマーの並列化. NeurIPS 2024. [LT25] S. Yang, J. Kautz, A. Hatamizadeh. ゲートデルタネットワーク:デルタルールによるMamba2の改良. ICLR 2025. 「Mamba2」は、基本的に1991年のULTRAに高速重み行列にスカラー時間減衰係数を追加したものです。 [LT25b] R. Grazzi, J. Siems, A. Zela, JKH Franke, F. Hutter, M. Pontil. 負の固有値を用いた線形RNNの状態追跡のロック解除.ICLR 2025.デルタルール拡張[FWP6][LT23]は,二次変換やその他の単純な線形変換よりも表現力に優れている(例えば,パリティ演算やモジュラー演算が実行できる)ことを示す. [LT25c] J. Siems、T. Carstensen、A. Zela、F. Hutter、M. Pontil、R. Grazzi. DeltaProduct: ハウスホルダー積による線形RNNの状態追跡の改善 ICLR 2025 ワークショップ FM-Wild. DeltaNet [FWP6][LT23] の拡張(追加の「マイクロステップ」による) [S2Sa] ML ForcadaとRP Ñeco. 翻訳のための再帰的ヘテロ連想記憶. 人工ニューラルネットワークに関する国際会議, 1997. [S2Sb] T. Mikolov、G. Zweig、G. December. コンテキスト依存型リカレントニューラルネットワーク言語モデル。IEEE音声言語技術ワークショップ(SLT)、2012年。 [S2Sc] A. Graves. リカレントニューラルネットワークによるシーケンストランスダクション. 表現学習ワークショップ, 国際機械学習会議 (ICML), 2012 [S2Sd] I. Sutskever, O. Vinyals, Quoc V. Le. ニューラルネットワークを用いたシーケンスツーシーケンス学習. Advances in Neural Information Processing Systems (NIPS), 2014, 3104-3112. [ST61] K.スタインブッシュ。死のラーンマトリックス。 Kybernetik、1(1):36-45、1961 年。 [TR1] A. Vaswani、N. Shazeer、N. Parmar、J. Uszkoreit、L. Jones、AN Gomez、L. Kaiser、I. Polosukhin (2017)。必要なのは注意力だけです。生理学研究所、2017年、5998-6008ページ。 [TR2] J. Devlin, MW Chang, K. Lee, K. Toutanova (2018). Bert: 言語理解のための深層双方向Transformerの事前学習. プレプリント arXiv:1810.04805. [TR3] K. Tran, A. Bisazza, C. Monz. 階層構造モデリングにおけるリカレント性の重要性. EMNLP 2018, p 4731-4736. ArXiv プレプリント 1803.03585. [TR4] M. Hahn. ニューラルシーケンスモデルにおける自己注意の理論的限界. 計算言語学会誌、第8巻、p.156-171、2020年。 [TR5] A. Katharopoulos, A. Vyas, N. Pappas, F. Fleuret. 「Transformers are RNN: 線形アテンションを備えた高速自己回帰Transformers」 Proc. Int. Conf. on Machine Learning (ICML), 2020年7月. [TR5a] Z. Shen, M. Zhang, H. Zhao, S. Yi, H. Li. 「効率的なアテンション:線形複雑度を持つアテンション」WACV 2021. [TR6] K. Choromanski, V. Likhosherstov, D. Dohan, X. Song, A. Gane, T. Sarlos, P. Hawkins, J. Davis, A. Mohiuddin, L. Kaiser, 他「Performersによる注目の再考」国際学習表現会議 (ICLR), 2021. [TR6a] H. Peng, N. Pappas, D. Yogatama, R. Schwartz, NA Smith, L. Kong. ランダムフィーチャアテンション. ICLR 2021. [TR7] S. Bhattamishra, K. Ahuja, N. Goyal. Transformerの形式言語認識能力と限界について. EMNLP 2020. [ULTRA] 1991年の非正規化線形Transformer (ULTRA)に関する参考文献:オリジナルの技術レポート(1991年3月)[FWP0]。ジャーナル論文(1992年)[FWP1]。学習用語「内部注目点」を導入した再帰型ULTRA拡張(1993年)[FWP2]。入力サイズに対して2乗的にスケーリングする現代の「二次」Transformer(2017年:「必要なのは注目点だけ」)[TR1]。2020年の論文[TR5]では、線形化された注目点を活用して線形にスケーリングする、より効率的なTransformerの亜種に「線形Transformer」という用語が使用されています[TR5a]。2021年の論文[FWP6]では、ULTRAの起源は1991年まで遡り[FWP0]、当時の計算コストは100万倍も高かったことが指摘されています。ULTRAおよびその他の高速重み付けプログラマーの概要(2021年)[FWP]。 ChatGPT の T を参照してください。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
