L'intelligence artificielle moderne repose sur les réseaux de neurones people.idsia.ch/~juergen/who-i…inventés ? https://t.co/ZCI8ZrEKnZ Les réseaux de neurones biologiques ont été découverts dans les années 1880 [CAJ88-06]. Le terme « neurone » a été créé en 1891 [CAJ06]. Beaucoup pensent que les réseaux de neurones ont été développés APRÈS cette date. Or, ce n'est pas le cas : les premiers réseaux de neurones « modernes » à deux couches d'unités ont été inventés il y a plus de deux siècles (1795-1805) par Legendre (1805) et Gauss (1795, non publié) [STI81], à une époque où le coût de la puissance de calcul était des milliards de fois supérieur à celui de 2025. Il est vrai que la terminologie des réseaux de neurones artificiels n'a été introduite que bien plus tard, au début du XXe siècle. Par exemple, certains réseaux de neurones non apprenants ont été abordés dès 1943 [MC43]. Des réflexions informelles sur une règle d'apprentissage simple pour les réseaux de neurones ont été publiées en 1948 [HEB48]. Le calcul évolutionnaire pour les réseaux de neurones a été mentionné dans un rapport inédit de 1948 [TUR1]. Divers réseaux de neurones apprenants concrets ont été publiés en 1958 [R58], 1961 [R61][ST61-95] et 1962 [WID62]. Cependant, bien que ces articles sur les réseaux de neurones du milieu des années 1900 présentent un intérêt historique, ils ont en réalité moins à voir avec l'IA moderne que les réseaux de neurones adaptatifs beaucoup plus anciens de Gauss et Legendre, encore largement utilisés aujourd'hui, qui constituent la base même de tous les réseaux de neurones, y compris les réseaux de neurones plus profonds récents [DL25]. Le réseau de neurones de Gauss-Legendre, conçu il y a plus de deux siècles [NN25], possède une couche d'entrée composée de plusieurs unités d'entrée et une couche de sortie. Par souci de simplicité, supposons que cette dernière ne comporte qu'une seule unité de sortie. Chaque unité d'entrée peut contenir un nombre réel et est reliée à l'unité de sortie par une connexion dont le poids est également réel. La sortie du réseau est la somme des produits des entrées par leurs poids. À partir d'un ensemble d'apprentissage constitué de vecteurs d'entrée et des valeurs cibles souhaitées pour chacun d'eux, les poids du réseau sont ajustés de manière à minimiser la somme des carrés des erreurs entre les sorties du réseau et les cibles correspondantes [DLH]. Le réseau peut alors être utilisé pour traiter des données de test inédites. Bien sûr, à l'époque, on ne parlait pas de réseau de neurones, car les neurones biologiques étaient encore inconnus. La première image microscopique d'une cellule nerveuse a été réalisée des décennies plus tard par Valentin en 1836, et le terme « neurone » a été inventé par Waldeyer en 1891 [CAJ06]. On appelait alors cette technique la méthode des moindres carrés, également connue en statistique sous le nom de régression linéaire. Or, elle est mathématiquement identique aux réseaux de neurones linéaires à deux couches actuels : même algorithme de base, même fonction d'erreur, mêmes paramètres/poids adaptatifs. Ces réseaux de neurones simples effectuent un « apprentissage superficiel », par opposition à l'« apprentissage profond » qui utilise de nombreuses couches non linéaires [DL25]. De fait, de nombreux cours modernes sur les réseaux de neurones commencent par présenter cette méthode, avant d'aborder des réseaux de neurones plus complexes et plus profonds [DLH]. Même les applications du début du XIXe siècle étaient similaires à celles d'aujourd'hui : apprendre à prédire l'élément suivant d'une séquence à partir des éléments précédents. C'est précisément le principe de CHATGPT ! Le premier exemple célèbre de reconnaissance de formes par un réseau de neurones remonte à plus de 200 ans : la redécouverte de la planète naine Cérès en 1801 par Gauss. Ce dernier avait collecté des données bruitées issues d'observations astronomiques antérieures, puis les avait utilisées pour ajuster les paramètres d'un modèle de prédiction. Ce modèle avait ainsi appris à généraliser à partir des données d'entraînement afin de prédire correctement la nouvelle position de Cérès. C'est ce qui a rendu le jeune Gauss célèbre [DLH]. Les anciens réseaux de neurones de Gauss-Legendre sont encore utilisés aujourd'hui dans d'innombrables applications. Quelle est la principale différence avec les réseaux de neurones utilisés dans certaines des applications d'IA les plus impressionnantes depuis les années 2010 ? Ces derniers sont généralement beaucoup plus profonds et comportent de nombreuses couches intermédiaires d'apprentissage, appelées « unités cachées ». Qui a inventé cela ? En bref : Ivakhnenko et Lapa (1965) [DEEP1-2]. D'autres ont perfectionné ce modèle [DLH]. Voir aussi : qui a inventé l'apprentissage profond [DL25] ? Certains croient encore que les réseaux de neurones modernes s'inspirent du cerveau biologique. Or, c'est tout simplement faux : des décennies avant la découverte des cellules nerveuses, l'ingénierie et la résolution de problèmes mathématiques ont déjà permis de développer ce que l'on appelle aujourd'hui les réseaux de neurones. En réalité, au cours des deux derniers siècles, la recherche en intelligence artificielle a peu évolué : en 2025, les progrès des réseaux de neurones reposent encore principalement sur l'ingénierie, et non sur des connaissances neurophysiologiques. (Certaines exceptions, remontant à plusieurs décennies [CN25], confirment cette règle.) Note 1. En 1958, des réseaux de neurones simples, de type Gauss et Legendre, ont été combinés à une fonction de seuillage de sortie pour obtenir des classificateurs de formes appelés perceptrons [R58][R61][DLH]. Étonnamment, les auteurs [R58][R61] semblaient ignorer l'existence d'un réseau de neurones bien plus ancien (1795-1805), célèbre en statistique sous le nom de « méthode des moindres carrés » ou « régression linéaire ». Fait remarquable, les réseaux de neurones à deux couches les plus utilisés aujourd'hui sont ceux de Gauss et Legendre, et non ceux des années 1940 [MC43] et 1950 [R58] (qui n'étaient même pas différentiables !). RÉFÉRENCES SÉLECTIONNÉES (nombreuses références supplémentaires dans [NN25] - voir le lien ci-dessus) : [CAJ88] SR Cajal. Structure des centres nerveux des rues. Révérend Trim. Histol. Norme. Patol., 1 (1888), pages 1-10. [CAJ88b] SR Cajal. Sur les fibres nerveuses de la couche moléculaire du cervelet. Révérend Trim. Histol. Norme. Patol., 1 (1888), pages 33 à 49. [CAJ89] Connexion générale des éléments nerveux. Méd. Práct., 2 (1889), pages 341 à 346. [CAJ06] F. López-Muñoz, J. Boya b, C. Alamo (2006). La théorie des neurones, pierre angulaire des neurosciences, à l'occasion du centenaire de l'attribution du prix Nobel à Santiago Ramón y Cajal. Brain Research Bulletin, volume 70, numéros 4 à 6, 16 octobre 2006, pages 391-405. [CN25] J. Schmidhuber (Blog IA, 2025). Qui a inventé les réseaux neuronaux convolutifs ? [DEEP1] Ivakhnenko, AG et Lapa, VG (1965). Dispositifs de prédiction cybernétiques. CCM Information Corporation. Premiers modèles d'apprentissage profond fonctionnels à plusieurs couches, apprenant des représentations internes. [DEEP1a] Ivakhnenko, Alexey Grigorevich. La méthode de groupe pour le traitement des données ; une alternative à la méthode d'approximation stochastique. Soviet Automatic Control 13 (1968) : 43-55. [DEEP2] Ivakhnenko, AG (1971). Théorie polynomiale des systèmes complexes. IEEE Transactions on Systems, Man and Cybernetics, (4):364-378. [DL25] J. Schmidhuber. Qui a inventé l'apprentissage profond ? Note technique IDSIA-16-25, IDSIA, novembre 2025. [DLH] J. Schmidhuber. Histoire annotée de l'IA moderne et de l'apprentissage profond. Rapport technique IDSIA-22-22, IDSIA, Lugano, Suisse, 2022. Prépublication arXiv:2212.11279. [HEB48] J. Konorski (1948). Réflexes conditionnés et organisation neuronale. Traduction du manuscrit polonais sous la direction de l'auteur. Cambridge University Press, 1948. Konorski a publié la « règle de Hebb » avant Hebb [HEB49]. [HEB49] DO Hebb. L'organisation du comportement. Wiley, New York, 1949. Konorski [HEB48] a publié la soi-disant « règle de Hebb » avant Hebb. [MC43] WS McCulloch, W. Pitts. Un calcul logique des idées immanentes à l'activité nerveuse. Bulletin de biophysique mathématique, vol. 5, p. 115-133, 1943. [NN25] J. Schmidhuber. Qui a inventé les réseaux neuronaux artificiels ? Note technique IDSIA-15-25, IDSIA, novembre 2025. [R58] Rosenblatt, F. (1958). Le perceptron : un modèle probabiliste pour le stockage et l'organisation de l'information dans le cerveau. Psychological review, 65(6):386. [R61] Joseph, RD (1961). Contributions à la théorie du perceptron. Thèse de doctorat, Université Cornell. [R62] Rosenblatt, F. (1962). Principes de neurodynamique. Spartan, New York. [ST61] K. Steinbuch. La Lernmatrix. (La matrice d'apprentissage.) Kybernetik, 1(1):36-45, 1961. [TUR1] AM Turing. Machines intelligentes. Rapport technique inédit, 1948. Dans : Ince DC, éditeur. Œuvres complètes d’AM Turing — Intelligence mécanique. Elsevier Science Publishers, 1992. [STI81] SM Stigler. Gauss et l'invention des moindres carrés. Ann. Stat. 9(3):465-474, 1981. [WID62] Widrow, B. et Hoff, M. (1962). Stockage et récupération associatifs d'informations numériques dans les réseaux de neurones adaptatifs. Biological Prototypes and Synthetic Systems, 1:160, 1962.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
