En 2025, le « Sputnik » de DeepSeek a secoué le monde, faisant chuter le marché boursier de mille milliards de dollars. DeepSeek [7] extrait les connaissances d'un réseau neuronal (RN) pour lepeople.idsia.ch/~juergen/who-i…tre. Qui a inventé cela ? https://t.co/w0WhIVGXQx La distillation des réseaux de neurones a été publiée en 1991 par moi-même [0]. La section 4, consacrée à un réseau de neurones « conscient » de type chunker et à un réseau de neurones « subconscient » de type automatiseur [0][1], a introduit un principe général de transfert des connaissances d'un réseau de neurones à un autre. Supposons qu'un réseau de neurones enseignant ait appris à prédire des données (attentes conditionnelles) à partir d'autres données. Ses connaissances peuvent être compressées dans un réseau de neurones élève, en entraînant ce dernier à imiter le comportement du réseau enseignant (tout en réentraînant le réseau élève sur les compétences précédemment acquises afin qu'il ne les oublie pas). En 1991, on parlait de « fusion » ou de « compression » du comportement d'un réseau de neurones dans un autre. Aujourd'hui, cette technique est largement utilisée et désigne également la « distillation » [2][6] ou le « clonage » du comportement d'un réseau de neurones enseignant dans celui d'un réseau de neurones élève. Elle fonctionne même lorsque les réseaux de neurones sont récurrents et opèrent sur des échelles de temps différentes [0][1]. Voir aussi [3][4]. RÉFÉRENCES (voir la note technique IDSIA-12-25 [5]) [0] J. Schmidhuber. Chunkeurs de séquences neuronales. Rapport technique FKI-148-91, TU Munich, avril 1991. [1] J. Schmidhuber. Apprentissage de séquences complexes et étendues à l'aide du principe de compression de l'historique. Neural Computation, 4(2):234-242, 1992. Basé sur [0]. [2] O. Vinyals, JA Dean, GE Hinton. Distilling the Knowledge in a Neural Network. Preprint arXiv:1503.02531 [https://t.co/yepipeR34S], 2015. Les auteurs n'ont pas cité la procédure de distillation NN originale de 1991 [0][1][DLP], même pas dans leur demande de brevet ultérieure. [3] J. Ba, R. Caruana. Les réseaux profonds ont-ils vraiment besoin d'être profonds ? NIPS 2014. Prépublication arXiv:1312.6184 (2013). [4] C. Bucilua, R. Caruana et A. Niculescu-Mizil. Compression de modèles. Conférence internationale SIGKDD sur la découverte de connaissances et l'exploration de données, 2006. [5] J. Schmidhuber. Qui a inventé la distillation des connaissances avec les réseaux de neurones artificiels ? Note technique IDSIA-12-25, IDSIA, novembre 2025 [6] Comment trois lauréats du prix Turing ont republié des méthodes et des idées clés sans en mentionner les auteurs. Rapport technique IDSIA-23-23, 2023 [7] DeepSeek-R1 : Inciter à la capacité de raisonnement dans les LLM par l’apprentissage par renforcement. Prépublication arXiv :2501.12948, 2025
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
