L'article de recherche le plus cité du laboratoire du Dr Bengio, lauréat du prix Turing, porte sur les réseaux antagonistes génératifs (GAN). Qui les a inventés ? Les premiers réseaux de neurones (RN) à la fois génératifs et antagonistes ont été publiés en 1people.idsia.ch/~juergen/who-i…5] https://t.co/Ev6rSvYiY2 À l'époque, le calcul coûtait environ 10 millions de fois plus cher qu'aujourd'hui (2025). Comment fonctionnent ces réseaux ? Deux réseaux de neurones s'affrontent. Un réseau de neurones de contrôle, doté d'unités gaussiennes stochastiques adaptatives (un modèle génératif), produit des données de sortie. Ces données sont ensuite transmises à un réseau de neurones prédicteur (appelé « modèle du monde » en 1990 [GAN90]), qui apprend par descente de gradient à prédire les effets des sorties. Dans ce jeu minimax, le réseau de neurones générateur maximise l'erreur minimisée par le réseau de neurones prédicteur. Le contrôleur est donc incité à créer, par ses sorties, des expériences/situations qui surprennent le prédicteur. À mesure que le prédicteur s'améliore, ces situations deviennent monotones. Ceci incite alors le contrôleur à inventer de nouvelles sorties (ou expériences) aux résultats encore moins prévisibles, et ainsi de suite. Ce phénomène a été nommé « Curiosité Artificielle » [GAN90][GAN91][GAN10][AC]. Artificial Curiosity n'était pas le premier contexte d'apprentissage automatique adverse, mais les travaux antérieurs [S59][H90] étaient très différents : ils n'impliquaient ni réseaux de neurones auto-supervisés (où un réseau de neurones observe la sortie d'un autre réseau de neurones génératif et tente d'en prédire les conséquences), ni modélisation de données, ni descente de gradient. (Les modèles génératifs eux-mêmes sont beaucoup plus anciens, par exemple les modèles de Markov cachés [MM1-3].) Voir la section « Implémentation de la curiosité et de l’ennui dynamiques » du rapport technique de 1990 [GAN90] et de l’article de conférence de 1991 [GAN91]. On y mentionne des expériences préliminaires où (en l’absence de récompense externe) le prédicteur minimise une fonction linéaire de ce que le générateur maximise. Ces anciens articles décrivent donc essentiellement ce qui allait devenir un GAN près de vingt-cinq ans plus tard, en 2014 [GAN14], alors que la puissance de calcul était environ 100 000 fois moins chère qu'en 1990. En 2014, le prédicteur neuronal ou modèle du monde de 1990 [GAN90][GAN91] était appelé discriminateur [GAN14], prédisant les effets binaires des sorties possibles du générateur (par exemple, réel ou faux) [GAN20]. L'application de 2014 à la génération d'images [GAN14] était novatrice. Le GAN de 1990 était plus général que celui de 2014 : il ne se limitait pas à des actions à sortie unique lors d’essais en une seule étape, mais autorisait de longues séquences d’actions. Des systèmes antagonistes génératifs plus sophistiqués, destinés à stimuler la curiosité et la créativité artificielles, ont été publiés en 1997 [AC97][AC99][AC02][LEC], prédisant des représentations internes abstraites plutôt que des données brutes. Le principe de 1990 [GAN90-91] a été largement utilisé pour l'exploration dans l'apprentissage par renforcement [SIN5][OUD13][PAT17][BUR18] et pour la synthèse d'images réalistes telles que les deepfakes [GAN14-19b], bien que ce dernier domaine ait finalement été repris par la diffusion latente de Rombach et al. [DIF1], une autre méthode publiée à Munich, s'appuyant sur les travaux antérieurs de Jarzynski en physique du millénaire précédent [DIF2] et sur des articles plus récents [DIF3-5]. ANNEXE 1. Le différend de priorité du GAN (1990-91 contre 2014) L'article de 2014 [GAN14] sur les réseaux neuronaux antagonistes génératifs (GAN) n'a pas cité le travail original de 1990 sur les réseaux neuronaux génératifs et antagonistes [GAN90,91,20][R2][DLP]. L'article de 2014 [GAN14] a également avancé des affirmations erronées concernant un autre système antagoniste à deux réseaux basé sur le gradient, appelé Minimisation de la prédictibilité (1991) [PM0-1][GAN20][DLP]. Un an après l'article de 1990 sur la curiosité artificielle [GAN90], la Minimisation de la prédictibilité a utilisé la compétition entre deux réseaux de neurones en apprentissage pour créer des représentations internes désenchevêtrées (ou codes factoriels) des données d'entrée [PM0-1]. L'article de 2014 [GAN1] cite la Minimisation de la prédictibilité, mais affirme à tort qu'il ne s'agit pas d'un jeu minimax et qu'il est donc différent des GAN. Or, les expériences de Minimisation de la prédictibilité de 1991 [PM0-1] et 1996 [PM2] (avec des images) sont clairement de type minimax. Même des études ultérieures menées par les auteurs [GAN14] ont omis de citer l'article original [DLP]. Les auteurs de [GAN14] n'ont jamais corrigé leur article de 2014, ce qui laisse supposer une volonté d'imposer de force une interprétation novatrice, malgré des preuves contradictoires. Le différend concernant la priorité a été relayé par la presse grand public, notamment Bloomberg [AV1], suite à une rencontre marquante lors de la conférence N(eur)IPS 2016 entre Juergen Schmidhuber (JS) et le premier auteur de [GAN14]. Ce dernier, qui présentait une communication sur les GAN, encourageait les participants à poser des questions. JS n'a pas hésité à le faire, abordant les problèmes soulevés par l'article [GAN14] de N(eur)IPS 2014 et les affirmations erronées qu'il contenait concernant les travaux antérieurs sur PM [GAN20][DLP]. Les tentatives ultérieures de corriger ces problèmes dans un article commun se sont prolongées pendant de nombreux mois sans aboutir. Le premier auteur [GAN14] a finalement admis que PM est adversarial (son article non corrigé à NeurIPS [GAN14] affirme toujours le contraire), mais a souligné qu'il n'est pas génératif. En réponse, JS a fait remarquer que le modèle Artificial Curiosity [GAN90][GAN91][GAN20][R2][AC][DLP], encore plus ancien, est à la fois adversarial et génératif (son réseau de neurones générateur contient des unités probabilistes [GAN90] comme dans les StyleGAN [GAN19]). Malgré la validité de cette affirmation, les auteurs de [GAN14] n'ont fait aucune tentative pour corriger leur article ni pour y répondre. C'est pourquoi une publication dans une revue à comité de lecture consacrée à ce différend de priorité a été publiée en 2020 [GAN20] afin de rétablir la vérité. Bien entendu, le plagiat peut être involontaire ou intentionnel, voire imprudent [PLAG1-6], et la première option est probablement la plus innocente. Cependant, la science dispose d'une méthode éprouvée pour traiter la découverte multiple et le plagiat – qu'il soit involontaire [PLAG1-6][CONN21] ou non [FAKE1-3] – en se basant sur des éléments tels que la date de publication des documents et des brevets [DLP][NOB]. La déontologie scientifique exige que les auteurs de plagiat involontaire corrigent leurs publications par le biais d'errata et citent correctement leurs sources. Or, les auteurs [GAN14] ne l'ont pas fait ; au contraire, ils ont continué à accumuler des citations d'inventions d'autres chercheurs [DLP]. Un tel comportement transforme apparemment même le plagiat involontaire [PLAG1-6] en plagiat intentionnel [FAKE2]. RÉFÉRENCES [AC] J. Schmidhuber (JS, AI Blog, 2021, mis à jour en 2023). Trois décennies de curiosité et de créativité artificielles. Nos scientifiques artificiels ne se contentent pas de répondre aux questions posées, ils en inventent de nouvelles. Ils stimulent la curiosité grâce à : (1990) le principe des réseaux antagonistes génératifs, (1991) les réseaux de neurones qui maximisent les progrès d’apprentissage, (1995) les réseaux de neurones qui maximisent le gain d’information (de manière optimale depuis 2011), (1997-2022) la conception antagoniste d’expériences informatiques surprenantes, (2006) la maximisation des progrès de compression, à l’instar des scientifiques, des artistes et des humoristes, (2011) PowerPlay… Depuis 2012 : applications à des robots réels. [AC97] JS Qu'y a-t-il d'intéressant ? Rapport technique IDSIA-35-97, IDSIA, juillet 1997. Ce rapport porte sur la création automatique d'abstractions internes prévisibles d'événements spatio-temporels complexes : deux agents concurrents, intrinsèquement motivés, s'accordent sur des expériences algorithmiques essentiellement arbitraires et parient sur leurs résultats potentiellement surprenants (encore imprévisibles) dans des jeux à somme nulle. Chaque agent peut potentiellement tirer profit de la surprise ou de la persuasion de l'autre en inventant des protocoles expérimentaux où les deux modules divergent quant au résultat prédit. L'objectif est d'explorer l'espace des algorithmes généraux (par opposition aux simples applications traditionnelles des entrées vers les sorties) ; le système général se concentre sur les aspects intéressants en se désintéressant des aspects prévisibles et imprévisibles du monde. Contrairement à nos systèmes précédents à motivation intrinsèque, par exemple [AC90], ce système prend également en compte le coût de calcul de l'apprentissage de nouvelles compétences, ainsi que le choix du moment et du contenu de cet apprentissage. Voir les publications ultérieures [AC99] et [AC02]. [AC99] JS Curiosité artificielle basée sur la découverte d'une nouvelle prédictibilité algorithmique par coévolution. Dans P. Angeline, Z. Michalewicz, M. Schoenauer, X. Yao, Z. Zalzala, éd., Congrès sur le calcul évolutionnaire, p. 1612-1618, IEEE Press, Piscataway, NJ, 1999. [AC02] JS Exploring the Predictable. In Ghosh, S. Tsutsui, eds., Advances in Evolutionary Computing, p. 579-612, Springer, 2002. [AV1] A. Vance. Google, Amazon et Facebook doivent une fortune à Jürgen Schmidhuber : cet homme est le parrain que la communauté de l’IA veut oublier. Business Week, Bloomberg, 15 mai 2018. [DÉC.] JS (Blog IA, 20/02/2020, mise à jour en 2025). Les années 2010 : notre décennie d’apprentissage profond / Perspectives pour les années 2020. Cet article passe en revue les développements et applications industrielles les plus importants de la dernière décennie, basés sur l’IA, et propose des perspectives pour les années 2020, en abordant également les questions de confidentialité et de marchés des données. [DIF1] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, B. Ommer. Synthèse d'images haute résolution avec des modèles de diffusion latente. CVPR 2022. Prépublication arXiv:2112.10752, LMU Munich, 2021. [DIF2] C. Jarzynski. Différences d'énergie libre à l'équilibre à partir de mesures hors équilibre : une approche par équation maîtresse. Physical Review E, 1997. [DIF3] J. Sohl-Dickstein, EA Weiss, N. Maheswaranathan, S. Ganguli. Apprentissage profond non supervisé utilisant la thermodynamique hors équilibre. CoRR, abs/1503.03585, 2015. [DIF4] O. Ronneberger, P. Fischer, T. Brox. Unet : Réseaux de neurones convolutifs pour la segmentation d’images biomédicales. Dans MICCAI (3), vol. 9351 de Lecture Notes in Computer Science, pages 234-241. Springer, 2015. [DIF5] J. Ho, A. Jain, P. Abbeel. Débruitage des modèles probabilistes de diffusion. Advances in Neural Information Processing Systems 33:6840-6851, 2020. [DL1] JS, 2015. Apprentissage profond dans les réseaux neuronaux : un aperçu. Neural Networks, 61, 85-117. Plus d'informations. [DLH] JS (2022). Histoire annotée de l'IA moderne et de l'apprentissage profond. Rapport technique IDSIA-22-22, IDSIA, Lugano, Suisse, 2022. Prépublication arXiv:2212.11279. [DLP] J. Schmidhuber (2023). Comment trois lauréats du prix Turing ont republié des méthodes et des idées clés sans en mentionner les créateurs. Rapport technique IDSIA-23-23, Laboratoire suisse d'IA IDSIA, 14 décembre 2023. [FAKE1] H. Hopf, A. Krief, G. Mehta, SA Matlin. Fake science et crise des connaissances : l’ignorance peut être fatale. Royal Society Open Science, mai 2019. Citation : « Les scientifiques doivent être prêts à dénoncer la désinformation diffusée sur les réseaux sociaux, dans la presse écrite ou audiovisuelle traditionnelle » et « doivent s’opposer fermement à la désinformation et à la pseudoscience en circulation et contredire avec vigueur les personnalités publiques qui les propagent. » [FAKE2] L. Stenflo. Les plagiaires intelligents sont les plus dangereux. Nature, vol. 427, p. 777 (février 2004). Citation : « Ce qui est pire, à mon avis, […] ce sont les cas où des scientifiques réécrivent des résultats antérieurs avec d’autres mots, dissimulant délibérément leurs sources, puis affirment avec force, des années plus tard, avoir découvert de nouveaux phénomènes. » [FAKE3] S. Vazire (2020). Un toast aux détecteurs d'erreurs. Que 2020 soit l'année où nous valorisons celles et ceux qui veillent à ce que la science s'autocorrige. Nature, vol. 577, p. 9, 2 février 2020. [GAN90] J. Schmidhuber (JS). Rendre le monde différentiable : Utilisation de réseaux de neurones auto-supervisés entièrement récurrents pour l’apprentissage par renforcement dynamique et la planification dans des environnements non stationnaires. Rapport technique FKI-126-90, TUM, 1990. Premier article sur la planification avec des réseaux de neurones récurrents (RN) à apprentissage par renforcement (plus d’informations) et sur les réseaux antagonistes génératifs (GAN) où un RN générateur affronte un RN prédicteur dans un jeu minimax. [GAN91] JS Une possibilité d'intégrer la curiosité et l'ennui dans les contrôleurs neuronaux de modélisation. Dans JA Meyer et SW Wilson (éd.), Actes de la Conférence internationale sur la simulation du comportement adaptatif : des animaux aux Animats, pages 222-227. MIT Press/Bradford Books, 1991. D'après [GAN90]. [GAN10] JS Théorie formelle de la créativité, du plaisir et de la motivation intrinsèque (1990-2010). IEEE Transactions on Autonomous Mental Development, 2(3):230-247, 2010. Cette étude bien connue de 2010 a résumé les réseaux neuronaux antagonistes génératifs de 1990 comme suit : un « réseau neuronal en tant que modèle prédictif du monde est utilisé pour maximiser la récompense intrinsèque du contrôleur, qui est proportionnelle aux erreurs de prédiction du modèle » (qui sont minimisées). [GAN10b] O. Niemitalo. Une méthode d'entraînement des réseaux de neurones artificiels pour générer des données manquantes dans un contexte variable. Article de blog, Internet Archive, 2010. Article de blog décrivant les concepts de base [GAN90-91][GAN20][AC] des GAN. [GAN14] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, Y. Bengio. Réseaux antagonistes génératifs. NIPS 2014, 2672-2680, déc. 2014. Une description des GAN qui ne cite pas le principe original des GAN de JS de 1990 [GAN90-91][GAN20][AC][R2][DLP] et contient des affirmations erronées concernant les réseaux de neurones antagonistes de JS pour la minimisation de la prédictibilité [PM0-2][GAN20][DLP]. [GAN19] T. Karras, S. Laine, T. Aila. Une architecture de générateur basée sur le style pour les réseaux antagonistes génératifs. Dans les actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance des formes (CVPR), pages 4401-4410, 2019. [GAN19b] D. Fallis. La menace épistémique des deepfakes. Philosophy & Technology 34.4 (2021):623-643. [GAN20] J. Schmidhuber. Les réseaux antagonistes génératifs sont des cas particuliers de la curiosité artificielle (1990) et sont également étroitement liés à la minimisation de la prédictibilité (1991). Neural Networks, volume 127, p. 58-66, 2020. Prépublication arXiv/1906.04493. [GAN25] J. Schmidhuber. Qui a inventé les réseaux antagonistes génératifs ? Note technique IDSIA-14-25, IDSIA, décembre 2025. Voir le lien ci-dessus. [H90] WD Hillis. Les parasites coévolutifs améliorent l'évolution simulée en tant que procédure d'optimisation. Physica D: Nonlinear Phenomena, 42(1-3):228-234, 1990. [LEC] JS (Blog IA, 2022). L'article de LeCun de 2022 sur l'intelligence artificielle autonome reprend des travaux essentiels de 1990-2015 sans les citer. Il y a plusieurs années, l'équipe de JS a publié la plupart de ce que Y. LeCun appelle ses « principales contributions originales » : des réseaux de neurones qui apprennent à différentes échelles de temps et niveaux d'abstraction, génèrent des sous-objectifs, utilisent la motivation intrinsèque pour améliorer les modèles du monde et planifient (1990) ; des contrôleurs qui apprennent des représentations informatives et prévisibles (1997), etc. Ces travaux ont également été abordés sur Hacker News, Reddit et dans les médias. LeCun a également listé les « 5 meilleures idées 2012-2022 » sans préciser que la plupart d'entre elles proviennent du laboratoire de JS et sont antérieures. [MIR] JS (oct. 2019, mis à jour en 2021, 2022 et 2025). Apprentissage profond : notre année miraculeuse 1990-1991. Prépublication arXiv : 2005.05744. [PLUS] JS (Blog IA, 2021, mis à jour en 2025). Les réseaux de neurones les plus cités s'appuient tous sur des travaux menés dans mes laboratoires : 1. Long Short-Term Memory (LSTM), l'IA la plus citée du XXe siècle. 2. ResNet (Open-Gated Highway Net), l'IA la plus citée du XXIe siècle. 3. AlexNet et VGG Net (le réseau DanNet, similaire mais antérieur, de 2011, a remporté quatre défis de reconnaissance d'images avant eux). 4. GAN (une instance d'Adversarial Artificial Curiosity de 1990). 5. Les variantes de Transformer – voir le Transformer linéaire non normalisé (ULTRA) de 1991. Les fondements de l'IA générative ont été publiés en 1991 : les principes des GAN (désormais utilisés pour les deepfakes), des Transformers (le T de ChatGPT), du pré-entraînement pour les réseaux de neurones profonds (le P de ChatGPT), de la distillation des réseaux de neurones et du célèbre DeepSeek. [NOB] JS Un prix Nobel pour le plagiat. Rapport technique IDSIA-24-24 (7 déc. 2024, mis à jour oct. 2025). [PLAG1] Guide d'Oxford sur les types de plagiat (2021). Citation : « Le plagiat peut être intentionnel, imprudent ou non intentionnel. » [PLAG2] Jackson State Community College (2022). Plagiat involontaire. [PLAG3] RL Foster. Éviter le plagiat involontaire. Journal for Specialists in Pediatric Nursing; Hoboken Vol. 12, Iss. 1, 2007. [PLAG4] N. Das. Qu’il soit intentionnel ou non, le plagiat est toujours inacceptable : recommandations aux universités indiennes en la matière. Perspect Clin Res 9 :56-7, 2018. [PLAG5] InfoSci-OnDemand (2023). Qu'est-ce que le plagiat involontaire ? Copie disponible sur Internet Archive. [PLAG6] Droits d'auteur réservés (2022). Comment éviter le plagiat accidentel et involontaire (2023). Copie disponible sur Internet Archive. Citation : « Qu'il soit accidentel ou intentionnel, le plagiat reste du plagiat. » [PLAG7] Cornell Review, 2024. Le président de Harvard démissionne suite à un scandale de plagiat. Janvier 2024. [PLAN] JS (Blog IA, 2020). 30e anniversaire de la planification et de l'apprentissage par renforcement avec les modèles du monde récurrents et la curiosité artificielle (1990). Ces travaux ont également introduit les signaux de récompense de grande dimension, les gradients de politique déterministes pour les RNN et le principe des GAN (largement utilisé aujourd'hui). Les agents dotés de modèles du monde récurrents adaptatifs suggèrent même une explication simple de la conscience et de la conscience de soi. [PLAN2] JS Un algorithme en ligne pour l'apprentissage par renforcement dynamique et la planification dans des environnements réactifs. Dans les actes de la conférence conjointe internationale IEEE/INNS sur les réseaux neuronaux, San Diego, volume 2, pages 253-258, 17-21 juin 1990. Basé sur [GAN90]. [PLAN3] Apprentissage par renforcement JS dans des environnements markoviens et non markoviens. Dans RP Lippman, JE Moody et DS Touretzky (éd.), Advances in Neural Information Processing Systems 3, NIPS'3, pages 500-506. San Mateo, CA : Morgan Kaufmann, 1991. Inspiré en partie de [GAN90]. [PM0] J. Schmidhuber. Apprentissage des codes factoriels par minimisation de la prédictibilité. TR CU-CS-565-91, Univ. Colorado à Boulder, 1991. [PM1] JS Apprentissage de codes factoriels par minimisation de la prédictibilité. Neural Computation, 4(6):863-879, 1992. [PM2] JS, M. Eldracher, B. Foltin. La minimisation de la prédictibilité semi-linéaire produit des détecteurs de caractéristiques bien connus. Neural Computation, 8(4):773-786, 1996. [R2] Reddit/ML, 2019. J. Schmidhuber avait vraiment des GAN en 1990. [S59] AL Samuel. Quelques études sur l'apprentissage automatique utilisant le jeu de dames. IBM Journal on Research and Development, 3:210-229, 1959.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
