Mise à jour (novembre 2025) : Qui a inventé la distillation des connaissances avec les réseaux de neurones artificiels ? Note technique IDSIA-12-25 (facilement accessible sur le web [5]). En 2025, le « Sputnik » de DeepSeek [7] a secoué le monde, faisant perdre mille milliards de dollars à la bourse. DeepSeek distille les connaissances d’un réseau de neurones (RN) vers un autre. Qui a inventé cela ? La distillation des RN a été publiée par moi-même en 1991 [0]. La section 4, consacrée à un RN de segmentation « conscient » et à un RN d’automatisation « subconscient » [0][1], a introduit le principe général. Supposons qu’un RN enseignant ait appris à prédire (attentes conditionnelles de) des données, étant donné d’autres données. Ses connaissances peuvent être compressées dans un RN élève, en entraînant ce dernier à imiter le comportement du RN enseignant (tout en le réentraînant sur les compétences précédemment acquises afin qu’il ne les oublie pas). En 1991, on parlait de « fusion » ou de « compression » du comportement d'un réseau de neurones dans un autre. Aujourd'hui, cette technique est largement utilisée et désigne également la « distillation » [2][6] ou le « clonage » du comportement d'un réseau de neurones enseignant dans celui d'un réseau de neurones élève. Elle fonctionne même lorsque les réseaux de neurones sont récurrents et opèrent sur des échelles de temps différentes [0][1]. Voir aussi [3][4]. RÉFÉRENCES (voir la note technique IDSIA-12-25 [5]) [0] J. Schmidhuber. Chunkeurs de séquences neuronales. Rapport technique FKI-148-91, TU Munich, avril 1991. [1] J. Schmidhuber. Apprentissage de séquences complexes et étendues à l'aide du principe de compression de l'historique. Neural Computation, 4(2):234-242, 1992. Basé sur [0]. [2] O. Vinyals, JA Dean, GE Hinton. Distilling the Knowledge in a Neural Network. Preprint arXiv:1503.02531, 2015. Les auteurs n'ont pas cité la procédure de distillation NN originale de 1991 [0][1][DLP], même pas dans leur demande de brevet ultérieure. [3] J. Ba, R. Caruana. Les réseaux profonds ont-ils vraiment besoin d'être profonds ? NIPS 2014. Prépublication arXiv:1312.6184 (2013). [4] C. Bucilua, R. Caruana et A. Niculescu-Mizil. Compression de modèles. Conférence internationale SIGKDD sur la découverte de connaissances et l'exploration de données, 2006. [5] J. Schmidhuber. Qui a inventé la distillation des connaissances avec les réseaux de neurones artificiels ? Note technique IDSIA-12-25, IDSIA, novembre 2025 [6] Comment trois lauréats du prix Turing ont republié des méthodes et des idées clés sans en mentionner les auteurs. Rapport technique IDSIA-23-23, 2023 [7] DeepSeek-R1 : Inciter à la capacité de raisonnement dans les LLM par l’apprentissage par renforcement. Prépublication arXiv :2501.12948, 2025
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.