Actualización (noviembre de 2025): ¿Quién inventó la destilación de conocimiento con redes neuronales artificiales? Nota técnica IDSIA-12-25 (fácilmente accesible en la web [5]). En 2025, el «Sputnik» de DeepSeek [7] conmocionó al mundo, provocando una pérdida de un billón de dólares en la bolsa. DeepSeek destila conocimiento de una red neuronal (RN) a otra. ¿Quién inventó esto? La destilación de RN fue publicada por mí en 1991 [0]. La sección 4 sobre una RN segmentadora «consciente» y una RN automatizadora «subconsciente» [0][1] introdujo el principio general. Supongamos que una RN maestra ha aprendido a predecir (expectativas condicionales de) datos, dados otros datos. Su conocimiento puede comprimirse en una RN estudiante, entrenando a esta última para que imite el comportamiento de la RN maestra (a la vez que se reentrena a la RN estudiante en habilidades previamente aprendidas para que no las olvide). En 1991, esto se denominaba «colapso» o «compresión» del comportamiento de una red neuronal en otra. Hoy en día, esta técnica se utiliza ampliamente y también se conoce como «destilación» [2][6] o «clonación» del comportamiento de una red neuronal maestra en el de una estudiante. Incluso funciona cuando las redes neuronales son recurrentes y operan en escalas de tiempo diferentes [0][1]. Véase también [3][4]. REFERENCIAS (más información en la Nota Técnica IDSIA-12-25 [5]) [0] J. Schmidhuber. Segmentadores de secuencias neuronales. Informe técnico FKI-148-91, TU Munich, abril de 1991. [1] J. Schmidhuber. Aprendizaje de secuencias complejas y extendidas utilizando el principio de compresión histórica. Neural Computation, 4(2):234-242, 1992. Basado en [0]. [2] O. Vinyals, JA Dean, GE Hinton. Destilando el conocimiento en una red neuronal. Preprint arXiv:1503.02531, 2015. Los autores no citaron el procedimiento original de destilación de redes neuronales de 1991 [0][1][DLP], ni siquiera en su posterior solicitud de patente. [3] J. Ba, R. Caruana. ¿Realmente necesitan ser profundas las redes profundas? NIPS 2014. Preprint arXiv:1312.6184 (2013). [4] C. Bucilua, R. Caruana y A. Niculescu-Mizil. Compresión de modelos. Conferencia internacional SIGKDD sobre descubrimiento de conocimiento y minería de datos, 2006. [5] J. Schmidhuber. ¿Quién inventó la destilación del conocimiento con redes neuronales artificiales? Nota técnica IDSIA-12-25, IDSIA, noviembre de 2025. [6] Cómo tres galardonados con el Premio Turing republicaron métodos e ideas clave cuyos creadores no reconocieron. Informe técnico IDSIA-23-23, 2023 [7] DeepSeek-R1: Incentivando la capacidad de razonamiento en modelos de aprendizaje automático mediante aprendizaje por refuerzo. Preprint arXiv:2501.12948, 2025
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.