X (Twitter)

En 2025, el «Sputnik» de DeepSeek conmocionó al mundo, provocando una pérdida de un billón de dólares en la bolsa. DeepSeek [7] extrae conocimiento de una red neuronal (RN) y lo integra en otrpeople.idsia.ch/~juergen/who-i…ttps://t.co/w0WhIVGXQx La destilación de redes neuronales fue publicada en 1991 por un servidor [0]. La sección 4, sobre una red neuronal segmentadora "consciente" y una red neuronal automatizadora "subconsciente" [0][1], introdujo un principio general para la transferencia de conocimiento entre redes neuronales. Supongamos que una red neuronal maestra ha aprendido a predecir (expectativas condicionales de) datos, dados otros datos. Su conocimiento puede comprimirse en una red neuronal estudiante, entrenándola para imitar el comportamiento de la maestra (a la vez que se refuerzan las habilidades aprendidas previamente para que no las olvide). En 1991, esto se denominaba «colapso» o «compresión» del comportamiento de una red neuronal en otra. Hoy en día, esta técnica se utiliza ampliamente y también se conoce como «destilación» [2][6] o «clonación» del comportamiento de una red neuronal maestra en el de una estudiante. Incluso funciona cuando las redes neuronales son recurrentes y operan en escalas de tiempo diferentes [0][1]. Véase también [3][4]. REFERENCIAS (más información en la Nota Técnica IDSIA-12-25 [5]) [0] J. Schmidhuber. Segmentadores de secuencias neuronales. Informe técnico FKI-148-91, TU Munich, abril de 1991. [1] J. Schmidhuber. Aprendizaje de secuencias complejas y extendidas utilizando el principio de compresión histórica. Neural Computation, 4(2):234-242, 1992. Basado en [0]. [2] O. Vinyals, JA Dean, GE Hinton. Destilando el conocimiento en una red neuronal. Preprint arXiv:1503.02531 [https://t.co/yepipeR34S], 2015. Los autores no citaron el procedimiento original de destilación de redes neuronales de 1991 [0][1][DLP], ni siquiera en su posterior solicitud de patente. [3] J. Ba, R. Caruana. ¿Realmente necesitan ser profundas las redes profundas? NIPS 2014. Preprint arXiv:1312.6184 (2013). [4] C. Bucilua, R. Caruana y A. Niculescu-Mizil. Compresión de modelos. Conferencia internacional SIGKDD sobre descubrimiento de conocimiento y minería de datos, 2006. [5] J. Schmidhuber. ¿Quién inventó la destilación del conocimiento con redes neuronales artificiales? Nota técnica IDSIA-12-25, IDSIA, noviembre de 2025. [6] Cómo tres galardonados con el Premio Turing republicaron métodos e ideas clave cuyos creadores no reconocieron. Informe técnico IDSIA-23-23, 2023 [7] DeepSeek-R1: Incentivando la capacidad de razonamiento en modelos de aprendizaje automático mediante aprendizaje por refuerzo. Preprint arXiv:2501.12948, 2025

Hilo de Jürgen Schmidhuber (@SchmidhuberAI)

Información del autor

Contenido del hilo