X (Twitter)

Atualização de 2025: quem inventou as redes neurais Transformer (o T em ChatGPT)? Cronologia da evolução dos Transformers na Nota Técnica IDSIA-11-25 (fácil de encontrar na internet): ★ 1991. Relatório técnico original sobre o que hoje é chamado de Transformer linear não normalizado (ULTRA)[FWP0][ULTRA]. KEY/VALUE era chamado de FROM/TO. O ULTRA usa regras de produto externo para associar suas chaves/valores inventadas por meio de pesos rápidos [FAST][FWP] e aplica os mapeamentos de atenção dependentes do contexto resultantes às consultas recebidas. Os custos computacionais do ULTRA escalam linearmente com o tamanho da entrada, ou seja, para 1.000 vezes mais texto, precisamos de 1.000 vezes mais poder computacional, o que é aceitável. Assim como os Transformers quadráticos modernos (veja abaixo), o ULTRA de 1991 é altamente paralelizado. Foi um subproduto de pesquisas mais gerais sobre redes neurais (RNs) que aprendem a programar mudanças rápidas de peso de outras RNs [FWP,FWP0-9,FWPMETA1-10], na época chamadas de controladores de peso rápido [FWP0] ou programadores de peso rápido (FWPs) [FWP]. O ULTRA foi apresentado como uma alternativa às RNs recorrentes [FWP0]. Os experimentos de 1991 eram semelhantes aos de hoje: prever algum efeito, dada uma sequência de entradas [FWP0]. ★ 1992. Publicação em periódico sobre ULTRA [FWP1], com base no relatório técnico de 1991. Observe que a terminologia era diferente naquela época. ★ 1993. Extensão ULTRA recorrente [FWP2] introduzindo a terminologia de aprendizagem "focos internos de atenção". ★ Em 2014, os modelos de sequência para sequência de ponta a ponta [S2Sa,b,c,d] tornaram-se populares para o Processamento de Linguagem Natural. Eles não eram baseados no Transformer linear não normalizado de 1991 [ULTRA] mencionado acima, mas na rede neural recorrente de Memória de Longo Prazo (LSTM) do mesmo laboratório. Em 2014, essa abordagem foi combinada com um mecanismo de atenção [ATT14] que não é linearizado como a atenção de 1991-93 [FWP0-2], mas inclui uma operação softmax não linear. Os primeiros Modelos de Linguagem de Grande Porte (LLMs) foram baseados nesses sistemas de atenção LSTM. Veja trabalhos adicionais sobre atenção de 2016-17 [ATT16a-17b]. ★ 2017. Transformer quadrático moderno ("atenção é tudo o que você precisa"), com escalabilidade quadrática em relação ao tamanho da entrada [TR1], ou seja, para 1.000 vezes mais texto, precisamos de 1.000.000 vezes mais poder computacional. Observe que, em 1991 [ULTRA], nenhuma revista teria aceitado uma rede neural com escalabilidade quadrática, mas em 2017, o poder computacional era suficientemente baixo para permitir a aplicação do Transformer quadrático (um tipo de programador de pesos rápidos [FWP]) a grandes quantidades de dados em computadores massivamente paralelos. O Transformer quadrático combina o princípio de pesos rápidos de produto externo aditivo de 1991 [FWP0-2] e softmax (veja 2014 acima): atenção (consulta, CHAVE, VALOR) ~ softmax (consulta CHAVE) VALOR. ★ 2020. Novo artigo [TR5] usando a terminologia "Transformer linear" para uma variante de Transformer mais eficiente que escala linearmente, aproveitando a atenção linearizada [TR5a]. ★ 2021. Artigo [FWP6] apontando que o Transformer linear não normalizado [TR5-6] é na verdade MATEMÁTICAMENTE EQUIVALENTE ao controlador de peso rápido de 1991 [FWP0][ULTRA] publicado quando a computação era um milhão de vezes mais cara do que em 2021. Visão geral do ULTRA e FWPs (2021) [FWP]. ★ 2021-25. O trabalho em extensões de ULTRAs e outros FWPs (como o DeltaNet [FWP6]) tornou-se pesquisa principal, visando desenvolver modelos de sequência que sejam eficientes e poderosos [TR6,TR6a][LT23-25][FWP23-25b]. É claro que os produtos externos simples em redes neurais remontam pelo menos à regra informal de Konorski de 1948 [HEB48] (posteriormente chamada de "regra de Hebb" [HEB49]) e a implementações formais concretas por meio da Matriz de Aprendizagem de Steinbuch por volta de 1960 [ST61-63][AMH1-2][KOH72][LIT74][PAL80]. Veja também memórias associativas bidirecionais (1988) [KOS88]. No entanto, esses autores descreveram regras pré-configuradas para associar padrões fornecidos pelo usuário entre si. Ao contrário do ULTRA e de outros Transformers desde 1991 [ULTRA][TR1], suas redes neurais não aprenderam a usar tais regras para associar padrões CHAVE/VALOR autoinventados, por meio da retropropagação de erros [BP4] ATRAVÉS das regras, para gerar CHAVES/VALORES apropriados nos momentos certos e criar mudanças úteis de pesos rápidos. (Nem as primeiras NNs com pesos rápidos de Malsburg (1981) e outros [FAST][FASTa,b][DLP].) ********************* REFERÊNCIAS SELECIONADAS (as demais referências encontram-se em: Quem inventou as redes neurais Transformer? Nota Técnica IDSIA-11-25, novembro de 2025 - fácil de encontrar na internet) [ATT] Blog de IA de Juergen (2020, atualizado em 2025): 30º aniversário da atenção neural sequencial diferenciável de ponta a ponta. Além de aprendizado por reforço condicional a objetivos. Existiu tanto a atenção rígida para fóveas (1990) quanto a atenção suave na forma de Transformers com autoatenção linearizada (1991-93) [ULTRA]. Hoje, ambos os tipos são muito populares. [ATT14] D. Bahdanau, K. Cho, Y. Bengio. Tradução automática neural por meio do aprendizado conjunto de alinhamento e tradução. 2014-16. Preprint arXiv/1409.0473, 2014-16. [RÁPIDO] C. vd Malsburg. Relatório Técnico 81-2, Abteilung f. Neurobiologia, Instituto Max-Planck f. Biophysik und Chemie, Goettingen, 1981. Primeiro artigo sobre pesos rápidos ou ligações dinâmicas. [FWP] 26 de março de 1991: Redes neurais aprendem a programar redes neurais com pesos rápidos — como variantes do Transformer. 2021: Novidades! Blog de IA, 26 de março de 2021, atualizado em 2025. [FWP0] J. Schmidhuber. Aprendendo a controlar memórias de peso rápido: Uma alternativa às redes recorrentes. Relatório Técnico FKI-147-91, TU Munique, 26 de março de 1991. Primeiro artigo sobre programadores de peso rápido (FWPs) neurais que separam armazenamento e controle: uma rede lenta aprende por descida de gradiente para calcular mudanças de peso de uma rede rápida. A versão baseada em produto externo (Eq. 5) é agora conhecida como Transformer linear não normalizado ou "Transformer com autoatenção linearizada" [ULTRA][FWP]. [FWP1] J. Schmidhuber. Aprendendo a controlar memórias de peso rápido: Uma alternativa às redes recorrentes. Neural Computation, 4(1):131-139, 1992. Baseado em [FWP0]. [FWP2] J. Schmidhuber. Reduzindo a razão entre a complexidade de aprendizado e o número de variáveis que variam no tempo em redes totalmente recorrentes. In Anais da Conferência Internacional sobre Redes Neurais Artificiais, Amsterdã, páginas 460-463. Springer, 1993. Uma extensão recorrente do Transformer linear não normalizado de 1991 [ULTRA], introduzindo a terminologia de aprendizado de "focos internos de atenção". Primeiro programador de pesos rápido baseado em redes neurais recorrentes usando produtos externos para programar mudanças na matriz de pesos. [FWP6] I. Schlag, K. Irie, J. Schmidhuber. Linear Transformers Are Secretly Fast Weight Programmers. ICML 2021. Preprint: arXiv:2102.11174. Mostra que o Transformer linear não normalizado é na verdade MATEMATICAMENTE EQUIVALENTE ao sistema de 1991 [FWP0][ULTRA] publicado quando a computação era um milhão de vezes mais cara do que em 2021. [FWP7] K. Irie, I. Schlag, R. Csordas, J. Schmidhuber. Indo além dos Transformers Lineares com Programadores de Peso Rápidos Recorrentes. NeurIPS 2021. Pré-publicação: arXiv:2106.06295 [HEB48] J. Konorski (1948). Reflexos condicionados e organização neuronal. Tradução do manuscrito polonês sob supervisão do autor. Cambridge University Press, 1948. Konorski publicou a chamada "regra de Hebb" antes de Hebb [HEB49]. [HEB49] D.O. Hebb. A Organização do Comportamento. Wiley, Nova York, 1949. Konorski [HEB48] publicou a chamada "regra de Hebb" antes de Hebb. [KOS88] B. Kosko. Memórias associativas bidirecionais. IEEE Transactions on Systems, Man, and Cybernetics, 18(1):49-60, 1988. [LT20] A. Katharopoulos, A. Vyas, N. Pappas, F. Fleuret. Transformers are RNNs: Fast autoregressive Transformers with linear attention. In Proc. Int. Conf. on Machine Learning (ICML), July 2020. [LT21] I. Bello. LambdaNetworks: Modelagem de interações de longo alcance sem atenção. Preprint arXiv:2102.08602. Uma variante de transformador linear. [LT23] K. Irie, R. Csordas, J. Schmidhuber. Poder computacional prático de transformadores lineares e suas extensões recorrentes e autorreferenciais. EMNLP 2023. [LT24] S. Yang, B. Wang, Y. Zhang, Y. Shen, Y. Kim. Paralelização de transformadores lineares com a regra Delta sobre o comprimento da sequência. NeurIPS 2024. [LT25] S. Yang, J. Kautz, A. Hatamizadeh. Redes Delta com Portões: Melhorando o Mamba2 com a Regra Delta. ICLR 2025. "Mamba2" é essencialmente o ULTRA de 1991 com um fator de decaimento temporal escalar na matriz de pesos rápidos. [LT25b] R. Grazzi, J. Siems, A. Zela, JKH Franke, F. Hutter, M. Pontil. Desbloqueando o rastreamento de estado em RNNs lineares por meio de autovalores negativos. ICLR 2025. Mostra que a extensão da regra delta [FWP6][LT23] é mais expressiva do que o Transformer quadrático e outros Transformers lineares ingênuos (por exemplo, pode fazer paridade e aritmética modular). [LT25c] J. Siems, T. Carstensen, A. Zela, F. Hutter, M. Pontil, R. Grazzi. DeltaProduct: Melhorando o rastreamento de estado em RNNs lineares via Householder Products ICLR 2025 Workshop FM-Wild. Estendendo o DeltaNet [FWP6][LT23] através de "micro-etapas" adicionais. [S2Sa] ML Forcada e RP Ñeco. Memórias heteroassociativas recursivas para tradução. Conferência Internacional de Trabalho sobre Redes Neurais Artificiais, 1997. [S2Sb] T. Mikolov e G. Zweig, G. December. Modelo de linguagem de rede neural recorrente dependente do contexto. IEEE Spoken Language Technology Workshop (SLT), 2012. [S2Sc] A. Graves. Transdução de sequência com redes neurais recorrentes. Workshop de Aprendizado de Representação, Conferência Internacional de Aprendizado de Máquina (ICML), 2012 [S2Sd] I. Sutskever, O. Vinyals, Quoc V. Le. Aprendizagem de sequência para sequência com redes neurais. Em: Advances in Neural Information Processing Systems (NIPS), 2014, 3104-3112. [ST61] K. Steinbuch. Morre Lernmatrix. Kybernetik, 1(1):36-45, 1961. [TR1] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, AN Gomez, L. Kaiser, I. Polosukhin (2017). Atenção é tudo que você precisa. NIPS 2017, pp. [TR2] J. Devlin, MW Chang, K. Lee, K. Toutanova (2018). Bert: Pré-treinamento de Transformers bidirecionais profundos para compreensão de linguagem. Preprint arXiv:1810.04805. [TR3] K. Tran, A. Bisazza, C. Monz. A importância da recorrência na modelagem de estruturas hierárquicas. EMNLP 2018, p. 4731-4736. ArXiv preprint 1803.03585. [TR4] M. Hahn. Limitações teóricas da autoatenção em modelos de sequência neural. Transactions of the Association for Computational Linguistics, Volume 8, p.156-171, 2020. [TR5] A. Katharopoulos, A. Vyas, N. Pappas, F. Fleuret. Transformers are RNNs: Fast autoregressive Transformers with linear attention. In Proc. Int. Conf. on Machine Learning (ICML), July 2020. [TR5a] Z. Shen, M. Zhang, H. Zhao, S. Yi, H. Li. Atenção eficiente: atenção com complexidades lineares. WACV 2021. [TR6] K. Choromanski, V. Likhosherstov, D. Dohan, X. Song, A. Gane, T. Sarlos, P. Hawkins, J. Davis, A. Mohiuddin, L. Kaiser, et al. Repensando a atenção com Performers. In Int. Conf. on Learning Representations (ICLR), 2021. [TR6a] H. Peng, N. Pappas, D. Yogatama, R. Schwartz, NA Smith, L. Kong. Atenção a características aleatórias. ICLR 2021. [TR7] S. Bhattamishra, K. Ahuja, N. Goyal. Sobre a capacidade e as limitações dos Transformers para reconhecer linguagens formais. EMNLP 2020. [ULTRA] Referências sobre o Transformer linear não normalizado de 1991 (ULTRA): relatório técnico original (março de 1991) [FWP0]. Publicação em periódico (1992) [FWP1]. Extensão recorrente do ULTRA (1993) introduzindo a terminologia de aprendizado de "focos internos de atenção" [FWP2]. Transformer "quadrático" moderno (2017: "atenção é tudo o que você precisa") com escala quadrática em relação ao tamanho da entrada [TR1]. Artigo de 2020 [TR5] usando a terminologia "Transformer linear" para uma variante mais eficiente do Transformer que escala linearmente, aproveitando a atenção linearizada [TR5a]. Artigo de 2021 [FWP6] apontando que o ULTRA remonta a 1991 [FWP0], quando a computação era um milhão de vezes mais cara. Visão geral do ULTRA e outros Programadores de Peso Rápido (2021) [FWP].

Thread de Jürgen Schmidhuber (@SchmidhuberAI)

Informações do autor

Conteúdo da thread