X (Twitter)

Actualización de 2025: ¿Quién inventó las redes neuronales Transformer (la T en ChatGPT)? Cronología de la evolución de Transformer en la Nota Técnica IDSIA-11-25 (fácil de encontrar en la web): ★ 1991. Informe técnico original sobre lo que ahora se conoce como el Transformer lineal no normalizado (ULTRA)[FWP0][ULTRA]. La clave/valor se denominaba FROM/TO. ULTRA utiliza reglas de producto exterior para asociar sus claves/valores, de invención propia, mediante pesos rápidos [FAST][FWP], y aplica las asignaciones de atención dependientes del contexto resultantes a las consultas entrantes. El coste computacional de ULTRA escala linealmente con el tamaño de la entrada; es decir, para 1000 veces más texto se necesita 1000 veces más capacidad de cómputo, lo cual es aceptable. Al igual que los Transformers cuadráticos modernos (véase más abajo), el ULTRA de 1991 es altamente paralelizable. Fue un subproducto de investigaciones más generales sobre redes neuronales (RN) que aprenden a programar cambios rápidos de peso en otras RN [FWP, FWP0-9, FWPMETA1-10], entonces llamadas controladores rápidos de peso [FWP0] o programadores rápidos de peso (FWP) [FWP]. ULTRA se presentó como una alternativa a las RN recurrentes [FWP0]. Los experimentos de 1991 fueron similares a los actuales: predecir un efecto a partir de una secuencia de entradas [FWP0]. ★ 1992. Publicación en revista sobre ULTRA [FWP1], basada en el informe técnico de 1991. Nótese que la terminología era diferente en aquel entonces. ★ 1993. Extensión recurrente ULTRA [FWP2] que introduce la terminología de aprendizaje de "focos internos de atención". ★ 2014. Los modelos de secuencia a secuencia de extremo a extremo [S2Sa,b,c,d] se popularizaron en el procesamiento del lenguaje natural. Estos no se basaban en el Transformer lineal no normalizado de 1991 [ULTRA] mencionado anteriormente, sino en la red neuronal recurrente de memoria a corto y largo plazo (LSTM) del mismo laboratorio. En 2014, este enfoque se combinó con un mecanismo de atención [ATT14] que, a diferencia del mecanismo de atención de 1991-93 [FWP0-2], no está linealizado, sino que incluye una operación softmax no lineal. Los primeros modelos de lenguaje a gran escala (LLM) se basaron en dichos sistemas LSTM-atención. Véase el trabajo adicional sobre atención de 2016-17 [ATT16a-17b]. ★ 2017. El Transformer cuadrático moderno ("solo necesitas atención") escala cuadráticamente con el tamaño de entrada [TR1]; es decir, para 1000 veces más texto, se necesita 1 000 000 de veces más capacidad de cómputo. Cabe destacar que en 1991 [ULTRA], ninguna revista habría aceptado una red neuronal con escalado cuadrático, pero para 2017, el costo del cómputo era lo suficientemente bajo como para aplicar el Transformer cuadrático (un tipo de programador de pesos rápido [FWP]) a grandes cantidades de datos en computadoras masivamente paralelas. El Transformer cuadrático combina el principio de peso rápido del producto exterior aditivo de 1991 [FWP0-2] y softmax (véase 2014 arriba): atención(consulta, CLAVE, VALOR) ~ softmax(consulta CLAVE) VALOR. ★ 2020. Nuevo artículo [TR5] que utiliza la terminología "Transformador lineal" para una variante de Transformador más eficiente que escala linealmente, aprovechando la atención linealizada [TR5a]. ★ 2021. Artículo [FWP6] que señala que el transformador lineal no normalizado [TR5-6] es en realidad MATEMÁTICAMENTE EQUIVALENTE al controlador de peso rápido de 1991 [FWP0][ULTRA] publicado cuando la computación era un millón de veces más cara que en 2021. Resumen de ULTRA y FWPs (2021) [FWP]. ★ 2021-25. El trabajo en extensiones de ULTRAs y otros FWP (como DeltaNet [FWP6]) se ha convertido en una investigación convencional, con el objetivo de desarrollar modelos de secuencia que sean eficientes y potentes [TR6,TR6a][LT23-25][FWP23-25b]. Por supuesto, los productos exteriores simples en redes neuronales se remontan al menos a la regla informal de Konorski de 1948 [HEB48] (posteriormente denominada "regla de Hebb" [HEB49]) y a implementaciones formales concretas mediante la Matriz de Aprendizaje de Steinbuch alrededor de 1960 [ST61-63][AMH1-2][KOH72][LIT74][PAL80]. Véase también memorias asociativas bidireccionales (1988) [KOS88]. Sin embargo, estos autores describieron reglas preconfiguradas para asociar patrones definidos por el usuario. A diferencia de ULTRA y otros Transformers desde 1991 [ULTRA][TR1], sus redes neuronales no aprendieron a usar dichas reglas para asociar patrones CLAVE/VALOR autoinventados, mediante la retropropagación de errores [BP4] a través de las reglas, para generar CLAVE/VALOR apropiados en el momento oportuno y crear cambios útiles de pesos rápidos. (Tampoco lo hicieron las primeras redes neuronales con pesos rápidos de Malsburg (1981) y otros [FAST][FASTa,b][DLP].) ********************* REFERENCIAS SELECCIONADAS (las referencias restantes se encuentran en: ¿Quién inventó las redes neuronales Transformer? Nota técnica IDSIA-11-25, noviembre de 2025 - fácil de encontrar en la web) [ATT] Blog de IA de Juergen (2020, actualizado en 2025): 30.º aniversario de la atención neuronal secuencial diferenciable de extremo a extremo. Además, aprendizaje por refuerzo condicionado a objetivos. Existían tanto la atención dura para fóveas (1990) como la atención blanda en forma de Transformers con autoatención linealizada (1991-93) [ULTRA]. Hoy en día, ambos tipos son muy populares. [ATT14] D. Bahdanau, K. Cho, Y. Bengio. Traducción automática neuronal mediante el aprendizaje conjunto de la alineación y la traducción. 2014-16. Preprint arXiv/1409.0473, 2014-16. [RÁPIDO] C. vd Malsburg. Informe técnico 81-2, Abteilung f. Neurobiología, Instituto Max-Planck f. Biophysik und Chemie, Goettingen, 1981. Primer artículo sobre pesos rápidos o enlaces dinámicos. [FWP] 26 de marzo de 1991: Las redes neuronales aprenden a programarse con pesos rápidos, como las variantes de Transformer. 2021: ¡Novedades! Blog de IA, 26 de marzo de 2021, actualizado en 2025. [FWP0] J. Schmidhuber. Aprendizaje para controlar memorias de pesos rápidos: una alternativa a las redes recurrentes. Informe técnico FKI-147-91, TU Munich, 26 de marzo de 1991. Primer artículo sobre programadores de pesos rápidos neuronales (FWP) que separan el almacenamiento y el control: una red lenta aprende mediante descenso de gradiente a calcular los cambios de peso de una red rápida. La versión basada en el producto exterior (Ecuación 5) se conoce ahora como el Transformer lineal no normalizado o el "Transformer con autoatención linealizada" [ULTRA][FWP]. [FWP1] J. Schmidhuber. Aprendiendo a controlar memorias de peso rápido: una alternativa a las redes recurrentes. Neural Computation, 4(1):131-139, 1992. Basado en [FWP0]. [FWP2] J. Schmidhuber. Reducción de la relación entre la complejidad del aprendizaje y el número de variables que varían con el tiempo en redes totalmente recurrentes. En Actas de la Conferencia Internacional sobre Redes Neuronales Artificiales, Ámsterdam, páginas 460-463. Springer, 1993. Una extensión recurrente del Transformer lineal no normalizado de 1991 [ULTRA], que introduce la terminología de aprendizaje de "focos de atención internos". Primer programador rápido de pesos basado en redes neuronales recurrentes que utiliza productos exteriores para programar los cambios en la matriz de pesos. [FWP6] I. Schlag, K. Irie, J. Schmidhuber. Los transformadores lineales son programadores de peso secretamente rápidos. ICML 2021. Preprint: arXiv:2102.11174. Demuestra que el transformador lineal no normalizado es, de hecho, MATEMÁTICAMENTE EQUIVALENTE al sistema de 1991 [FWP0][ULTRA], publicado cuando la computación era un millón de veces más cara que en 2021. [FWP7] K. Irie, I. Schlag, R. Csordas, J. Schmidhuber. Más allá de los transformadores lineales con programadores de peso rápidos recurrentes. NeurIPS 2021. Preprint: arXiv:2106.06295 [HEB48] J. Konorski (1948). Reflejos condicionados y organización neuronal. Traducción del manuscrito polaco bajo la supervisión del autor. Cambridge University Press, 1948. Konorski publicó la llamada "regla de Hebb" antes que Hebb [HEB49]. [HEB49] DO Hebb. La organización del comportamiento. Wiley, Nueva York, 1949. Konorski [HEB48] publicó la llamada "regla de Hebb" antes que Hebb. [KOS88] B. Kosko. Memorias asociativas bidireccionales. IEEE Transactions on Systems, Man, and Cybernetics, 18(1):49-60, 1988. [LT20] A. Katharopoulos, A. Vyas, N. Pappas, F. Fleuret. Los Transformers son RNN: Transformers autorregresivos rápidos con atención lineal. En Actas de la Conferencia Internacional sobre Aprendizaje Automático (ICML), julio de 2020. [LT21] I. Bello. LambdaNetworks: Modelado de interacciones de largo alcance sin atención. Preprint arXiv:2102.08602. Una variante de transformador lineal. [LT23] K. Irie, R. Csordas, J. Schmidhuber. Potencia computacional práctica de los transformadores lineales y sus extensiones recurrentes y autorreferenciales. EMNLP 2023. [LT24] S. Yang, B. Wang, Y. Zhang, Y. Shen, Y. Kim. Paralelización de transformadores lineales con la regla delta sobre la longitud de secuencia. NeurIPS 2024. [LT25] S. Yang, J. Kautz, A. Hatamizadeh. Redes Delta con Compuerta: Mejorando Mamba2 con la Regla Delta. ICLR 2025. "Mamba2" es esencialmente el ULTRA de 1991 con un factor de decaimiento temporal escalar en la matriz de peso rápido. [LT25b] R. Grazzi, J. Siems, A. Zela, JKH Franke, F. Hutter, M. Pontil. Desbloqueando el seguimiento de estado en RNN lineales a través de autovalores negativos. ICLR 2025. Muestra que la extensión de la regla delta [FWP6][LT23] es más expresiva que el Transformer cuadrático y otros Transformers lineales ingenuos (por ejemplo, puede realizar paridad y aritmética modular). [LT25c] J. Siems, T. Carstensen, A. Zela, F. Hutter, M. Pontil, R. Grazzi. DeltaProduct: Mejora del seguimiento de estado en RNN lineales mediante productos Householder. Taller FM-Wild de ICLR 2025. Extensión de DeltaNet [FWP6][LT23] mediante "micropasos" adicionales. [S2Sa] ML Forcada y RP Ñeco. Memorias heteroasociativas recursivas para la traducción. Conferencia Internacional de Trabajo sobre Redes Neuronales Artificiales, 1997. [S2Sb] T. Mikolov y G. Zweig, G. December. Modelo de lenguaje de red neuronal recurrente dependiente del contexto. Taller de tecnología del lenguaje hablado (SLT) de la IEEE, 2012. [S2Sc] A. Graves. Transducción de secuencias con redes neuronales recurrentes. Taller de Aprendizaje de Representaciones, Conferencia Internacional sobre Aprendizaje Automático (ICML), 2012. [S2Sd] I. Sutskever, O. Vinyals, Quoc V. Le. Aprendizaje de secuencia a secuencia con redes neuronales. En: Advances in Neural Information Processing Systems (NIPS), 2014, 3104-3112. [ST61] K. Steinbuch. Die Lernmatriz. Kybernetik, 1(1):36-45, 1961. [TR1] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, AN Gomez, L. Kaiser, I. Polosukhin (2017). Atención es todo lo que necesitas. NIPS 2017, págs. 5998-6008. [TR2] J. Devlin, MW Chang, K. Lee, K. Toutanova (2018). Bert: Preentrenamiento de transformadores bidireccionales profundos para la comprensión del lenguaje. Preprint arXiv:1810.04805. [TR3] K. Tran, A. Bisazza, C. Monz. La importancia de la recurrencia para modelar estructuras jerárquicas. EMNLP 2018, págs. 4731-4736. Preprint de ArXiv 1803.03585. [TR4] M. Hahn. Limitaciones teóricas de la autoatención en modelos de secuencias neuronales. Transactions of the Association for Computational Linguistics, Volumen 8, p.156-171, 2020. [TR5] A. Katharopoulos, A. Vyas, N. Pappas, F. Fleuret. Los Transformers son RNN: Transformers autorregresivos rápidos con atención lineal. En Actas de la Conferencia Internacional sobre Aprendizaje Automático (ICML), julio de 2020. [TR5a] Z. Shen, M. Zhang, H. Zhao, S. Yi, H. Li. Atención eficiente: Atención con complejidades lineales. WACV 2021. [TR6] K. Choromanski, V. Likhosherstov, D. Dohan, X. Song, A. Gane, T. Sarlos, P. Hawkins, J. Davis, A. Mohiuddin, L. Kaiser, et al. Repensando la atención con intérpretes. En Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR), 2021. [TR6a] H. Peng, N. Pappas, D. Yogatama, R. Schwartz, NA Smith, L. Kong. Atención a características aleatorias. ICLR 2021. [TR7] S. Bhattamishra, K. Ahuja, N. Goyal. Sobre la capacidad y las limitaciones de los transformadores para reconocer lenguajes formales. EMNLP 2020. [ULTRA] Referencias sobre el Transformer lineal no normalizado de 1991 (ULTRA): informe técnico original (marzo de 1991) [FWP0]. Publicación en revista (1992) [FWP1]. Extensión recurrente de ULTRA (1993) que introduce la terminología del aprendizaje de "focos internos de atención" [FWP2]. Transformer "cuadrático" moderno (2017: "la atención es todo lo que necesitas") que escala cuadráticamente con el tamaño de la entrada [TR1]. Artículo de 2020 [TR5] que utiliza la terminología "Transformer lineal" para una variante de Transformer más eficiente que escala linealmente, aprovechando la atención linealizada [TR5a]. Artículo de 2021 [FWP6] que señala que ULTRA se remonta a 1991 [FWP0], cuando la computación era un millón de veces más costosa. Descripción general de ULTRA y otros programadores de peso rápido (2021) [FWP].

Hilo de Jürgen Schmidhuber (@SchmidhuberAI)

Información del autor

Contenido del hilo