X (Twitter)

Qui a inventé les réseaux de neurones Transformer (le T de ChatGPT) ? Chronologie de l’évolutiopeople.idsia.ch/~juergen/who-i…tps://t.co/7EJPAnRKvI ★ 1991. Rapport technique original sur ce qui est aujourd'hui appelé le Transformer linéaire non normalisé (ULTRA) [FWP0][ULTRA]. Les paires clé/valeur étaient alors appelées FROM/TO. ULTRA utilise des règles de produit extérieur pour associer ses paires clé/valeur, qu'il a lui-même conçues, via des pondérations rapides [FAST][FWP], et applique les mappages d'attention contextuels résultants aux requêtes entrantes. Le coût de calcul d'ULTRA est proportionnel à la taille de l'entrée : pour 1 000 fois plus de texte, il faut 1 000 fois plus de puissance de calcul, ce qui est acceptable. À l'instar des Transformers quadratiques modernes (voir ci-dessous), l'ULTRA de 1991 est hautement parallélisable. Il s'agissait d'un sous-produit de recherches plus générales sur les réseaux de neurones (RN) qui apprennent à programmer des modifications rapides des pondérations d'autres RN [FWP, FWP0-9, FWPMETA1-10], alors appelés contrôleurs de pondération rapides [FWP0] ou programmeurs de pondération rapides (FWP) [FWP]. ULTRA a été présenté comme une alternative aux réseaux de neurones récurrents [FWP0]. Les expériences de 1991 étaient similaires à celles d'aujourd'hui : prédire un effet à partir d'une séquence d'entrées [FWP0]. ★ 1992. Publication dans une revue scientifique sur ULTRA [FWP1], basée sur le rapport technique de 1991. À noter que la terminologie était différente à l'époque. ★ 1993. Extension ULTRA récurrente [FWP2] introduisant la terminologie de l'apprentissage des « projecteurs internes de l'attention ». ★ 2014. Les modèles séquence-à-séquence de bout en bout [S2Sa,b,c,d] ont gagné en popularité dans le traitement automatique du langage naturel. Contrairement au Transformer linéaire non normalisé de 1991 [ULTRA] mentionné précédemment, ils s'appuient sur le réseau de neurones récurrent LSTM (Long Short-Term Memory) développé par le même laboratoire. En 2014, cette approche a été combinée à un mécanisme d'attention [ATT14] non linéarisé, à l'instar de l'attention de 1991-1993 [FWP0-2], mais intégrant une opération softmax non linéaire. Les premiers modèles de langage étendus (LLM) étaient basés sur de tels systèmes LSTM-attention. Voir les travaux complémentaires sur l'attention publiés entre 2016 et 2017 [ATT16a-17b]. ★ 2017. Transformer quadratique moderne (« l'attention suffit »), dont la puissance de calcul augmente quadratiquement avec la taille de l'entrée [TR1] : pour 1 000 fois plus de texte, il faut 1 000 000 de puissance de calcul. À noter qu'en 1991 [ULTRA], aucune revue n'aurait accepté un réseau de neurones à complexité quadratique. Or, dès 2017, le coût de la puissance de calcul était suffisamment bas pour permettre d'appliquer le Transformer quadratique (une sorte de programmeur de pondération rapide [FWP]) à de grands volumes de données sur des ordinateurs massivement parallèles. Le Transformer quadratique combine le principe de pondération rapide par produit extérieur additif de 1991 [FWP0-2] et la fonction softmax (voir 2014 ci-dessus) : attention (requête, CLÉ, VALEUR) ~ softmax (requête CLÉ) VALEUR. ★ 2020. Nouvel article [TR5] utilisant la terminologie « transformateur linéaire » pour une variante de transformateur plus efficace qui évolue linéairement, tirant parti de l’attention linéarisée [TR5a]. ★ 2021. Article [FWP6] soulignant que le transformateur linéaire non normalisé [TR5-6] est en fait MATHÉMATIQUEMENT ÉQUIVALENT au contrôleur de poids rapide de 1991 [FWP0][ULTRA] publié lorsque le calcul était un million de fois plus coûteux qu'en 2021. Aperçu d'ULTRA et des FWP (2021) [FWP]. ★ 2021-25. Les travaux sur les extensions des ULTRA et d'autres FWP (tels que le DeltaNet [FWP6]) sont devenus une recherche courante, visant à développer des modèles de séquences à la fois efficaces et puissants [TR6,TR6a][LT23-25][FWP23-25b]. Bien sûr, les produits extérieurs simples dans les réseaux de neurones remontent au moins à la règle informelle de Konorski de 1948 [HEB48] (parfois appelée plus tard « règle de Hebb » [HEB49]) et à des implémentations formelles concrètes, notamment la matrice d'apprentissage de Steinbuch vers 1960 [ST61-63][AMH1-2][KOH72][LIT74][PAL80]. Voir aussi les mémoires associatives bidirectionnelles (1988) [KOS88]. Cependant, ces auteurs décrivaient des règles préconfigurées pour associer des motifs fournis par l'utilisateur. Contrairement à ULTRA et aux autres Transformers depuis 1991 [ULTRA][TR1], leurs réseaux de neurones n'apprenaient pas à utiliser de telles règles pour associer des motifs clé/valeur auto-inventés, par rétropropagation des erreurs [BP4] à travers les règles, afin de générer les clés/valeurs appropriées au bon moment et de créer des modifications utiles des poids rapides. (Les premiers réseaux de neurones à pondération rapide de Malsburg (1981) et d'autres [FAST][FASTa,b][DLP].) ********** RÉFÉRENCES SÉLECTIONNÉES (les autres références se trouvent dans : Qui a inventé les réseaux neuronaux Transformer ? Note technique IDSIA-11-25, novembre 2025 - voir le lien ci-dessus) [ATT] Blog de Juergen sur l'IA (2020, mise à jour en 2025) : 30e anniversaire de l'attention neuronale séquentielle différentiable de bout en bout. Apprentissage par renforcement conditionnel à l'objectif. On a vu apparaître l'attention dure pour la fovéa (1990) et l'attention souple sous la forme de Transformers avec auto-attention linéarisée (1991-1993) [ULTRA]. Aujourd'hui, ces deux types sont très répandus. [ATT14] D. Bahdanau, K. Cho, Y. Bengio. Traduction automatique neuronale par apprentissage conjoint de l'alignement et de la traduction. 2014-16. Prépublication arXiv/1409.0473, 2014-16. [RAPIDE] C. vd Malsburg. Rapport technique 81-2, Abteilung f. Neurobiologie, Institut Max-Planck f. Biophysik und Chemie, Goettingen, 1981. Premier article sur les poids rapides ou les liens dynamiques. [FWP] 26 mars 1991 : Les réseaux de neurones apprennent à programmer des réseaux de neurones avec des poids rapides, comme les variantes de Transformer. 2021 : Nouveautés ! Blog IA, 26 mars 2021, mis à jour en 2025. [FWP0] J. Schmidhuber. Apprentissage du contrôle des mémoires à poids rapides : une alternative aux réseaux récurrents. Rapport technique FKI-147-91, TU Munich, 26 mars 1991. Premier article sur les programmateurs de poids rapides neuronaux (FWP) qui séparent le stockage et le contrôle : un réseau lent apprend par descente de gradient à calculer les modifications de poids d’un réseau rapide. La version basée sur le produit extérieur (Éq. 5) est maintenant connue sous le nom de Transformer linéaire non normalisé ou de « Transformateur à auto-attention linéarisée » [ULTRA][FWP]. [FWP1] J. Schmidhuber. Apprentissage du contrôle des mémoires à poids rapide : une alternative aux réseaux récurrents. Neural Computation, 4(1):131-139, 1992. Basé sur [FWP0]. [FWP2] J. Schmidhuber. Réduction du rapport entre la complexité d'apprentissage et le nombre de variables temporelles dans les réseaux entièrement récurrents. Dans les actes de la Conférence internationale sur les réseaux de neurones artificiels, Amsterdam, pages 460-463. Springer, 1993. Extension récurrente du transformateur linéaire non normalisé [ULTRA] de 1991, introduisant la terminologie d'apprentissage des « faisceaux d'attention internes ». Premier programmeur de poids rapide basé sur un réseau de neurones récurrent utilisant des produits extérieurs pour programmer les changements de matrice de poids. [FWP6] I. Schlag, K. Irie, J. Schmidhuber. Les transformateurs linéaires sont secrètement des programmeurs de poids rapides. ICML 2021. Prépublication : arXiv:2102.11174. Démontre que le transformateur linéaire non normalisé est en réalité MATHÉMATIQUEMENT ÉQUIVALENT au système de 1991 [FWP0][ULTRA] publié à une époque où le coût de calcul était un million de fois supérieur à celui de 2021. [FWP7] K. Irie, I. Schlag, R. Csordas, J. Schmidhuber. Aller au-delà des transformateurs linéaires grâce aux programmeurs de poids rapides récurrents. NeurIPS 2021. Prépublication : arXiv:2106.06295 [HEB48] J. Konorski (1948). Réflexes conditionnés et organisation neuronale. Traduction du manuscrit polonais sous la direction de l'auteur. Cambridge University Press, 1948. Konorski a publié la « règle de Hebb » avant Hebb [HEB49]. [HEB49] DO Hebb. L'organisation du comportement. Wiley, New York, 1949. Konorski [HEB48] a publié la soi-disant « règle de Hebb » avant Hebb. [KOS88] B. Kosko. Mémoires associatives bidirectionnelles. IEEE Transactions on Systems, Man, and Cybernetics, 18(1):49-60, 1988. [LT20] A. Katharopoulos, A. Vyas, N. Pappas, F. Fleuret. Les Transformers sont des RNN : Transformers autorégressifs rapides avec attention linéaire. Dans : Actes de la Conférence internationale sur l’apprentissage automatique (ICML), juillet 2020. [LT21] I. Bello. LambdaNetworks : Modélisation des interactions à longue portée sans attention. Prépublication arXiv :2102.08602. Une variante de transformateur linéaire. [LT23] K. Irie, R. Csordas, J. Schmidhuber. Puissance de calcul pratique des transformateurs linéaires et de leurs extensions récurrentes et autoréférentielles. EMNLP 2023. [LT24] S. Yang, B. Wang, Y. Zhang, Y. Shen, Y. Kim. Parallélisation des transformateurs linéaires avec la règle Delta sur la longueur de séquence. NeurIPS 2024. [LT25] S. Yang, J. Kautz, A. Hatamizadeh. Réseaux Delta à portes : amélioration de Mamba2 avec la règle Delta. ICLR 2025. « Mamba2 » est essentiellement l’ULTRA de 1991 avec un facteur de décroissance temporelle scalaire sur la matrice de poids rapide. [LT25b] R. Grazzi, J. Siems, A. Zela, JKH Franke, F. Hutter, M. Pontil. Déverrouillage du suivi d'état dans les RNN linéaires grâce aux valeurs propres négatives. ICLR 2025. Montre que l'extension de la règle delta [FWP6][LT23] est plus expressive que le transformateur quadratique et d'autres transformateurs linéaires naïfs (par exemple, elle peut effectuer des calculs de parité et d'arithmétique modulaire). [LT25c] J. Siems, T. Carstensen, A. Zela, F. Hutter, M. Pontil, R. Grazzi. DeltaProduct : Amélioration du suivi d’état dans les RNN linéaires via les produits Householder. Atelier FM-Wild de l’ICLR 2025. Extension du DeltaNet [FWP6][LT23] par des « micro-étapes » supplémentaires. [S2Sa] ML Forcada et RP Ñeco. Mémoires hétéro-associatives récursives pour la traduction. Conférence internationale sur les réseaux neuronaux artificiels, 1997. [S2Sb] T. Mikolov et G. Zweig, G. December. Modèle de langage de réseau neuronal récurrent dépendant du contexte. Atelier IEEE sur les technologies du langage parlé (SLT), 2012. [S2Sc] A. Graves. Transduction de séquences avec des réseaux de neurones récurrents. Atelier sur l'apprentissage des représentations, Conférence internationale sur l'apprentissage automatique (ICML), 2012 [S2Sd] I. Sutskever, O. Vinyals, Quoc V. Le. Apprentissage de séquence à séquence avec des réseaux neuronaux. Dans : Advances in Neural Information Processing Systems (NIPS), 2014, 3104-3112. [ST61] K. Steinbuch. La Lernmatrix. Cybernétik, 1(1):36-45, 1961. [TR1] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, AN Gomez, L. Kaiser, I. Polosukhin (2017). L'attention est tout ce dont vous avez besoin. NIPS 2017, p. 5998-6008. [TR2] J. Devlin, MW Chang, K. Lee, K. Toutanova (2018). Bert : Pré-entraînement de Transformers bidirectionnels profonds pour la compréhension du langage. Prépublication arXiv :1810.04805. [TR3] K. Tran, A. Bisazza, C. Monz. L'importance de la récurrence dans la modélisation des structures hiérarchiques. EMNLP 2018, p. 4731-4736. Prépublication ArXiv 1803.03585. [TR4] M. Hahn. Limitations théoriques de l'auto-attention dans les modèles de séquences neuronales. Transactions of the Association for Computational Linguistics, Volume 8, p.156-171, 2020. [TR5] A. Katharopoulos, A. Vyas, N. Pappas, F. Fleuret. Les Transformers sont des RNN : Transformers autorégressifs rapides avec attention linéaire. Dans : Actes de la Conférence internationale sur l’apprentissage automatique (ICML), juillet 2020. [TR5a] Z. Shen, M. Zhang, H. Zhao, S. Yi, H. Li. Attention efficace : attention avec des complexités linéaires. WACV 2021. [TR6] K. Choromanski, V. Likhosherstov, D. Dohan, X. Song, A. Gane, T. Sarlos, P. Hawkins, J. Davis, A. Mohiuddin, L. Kaiser, et al. Repenser l'attention avec les performeurs. Dans la Conférence internationale sur les représentations d'apprentissage (ICLR), 2021. [TR6a] H. Peng, N. Pappas, D. Yogatama, R. Schwartz, NA Smith, L. Kong. Attention aux caractéristiques aléatoires. ICLR 2021. [TR7] S. Bhattamishra, K. Ahuja, N. Goyal. Sur la capacité et les limites des transformateurs à reconnaître les langages formels. EMNLP 2020. [ULTRA] Références sur le Transformer linéaire non normalisé de 1991 (ULTRA) : rapport technique original (mars 1991) [FWP0]. Publication dans une revue (1992) [FWP1]. Extension récurrente d’ULTRA (1993) introduisant la terminologie d’apprentissage des « faisceaux d’attention internes » [FWP2]. Transformer « quadratique » moderne (2017 : « l’attention est tout ce dont vous avez besoin ») dont la taille d’entrée évolue quadratiquement [TR1]. Article de 2020 [TR5] utilisant la terminologie « Transformer linéaire » pour une variante de Transformer plus efficace dont la taille d’entrée évolue linéairement, tirant parti de l’attention linéarisée [TR5a]. Article de 2021 [FWP6] soulignant qu’ULTRA remonte à 1991 [FWP0], époque où le coût de calcul était un million de fois plus élevé. Aperçu d’ULTRA et d’autres programmeurs de poids rapides (2021) [FWP]. Voir le T dans ChatGPT.

Qui a inventé les réseaux de neurones Transformer (le T de ChatGPT) ? Chronologie de l’évolution des Transformers : http

Fil de Jürgen Schmidhuber (@SchmidhuberAI)

Informations sur l'auteur

Contenu du fil