X (Twitter)

2025년 업데이트: 트랜스포머 신경망(ChatGPT의 T)은 누가 발명했을까요? 기술 노트 IDSIA-11-25에 나와 있는 트랜스포머 진화 연표(웹에서 쉽게 찾을 수 있음): ★ 1991. 현재 비정규화 선형 변환기(ULTRA)[FWP0][ULTRA]라고 불리는 것에 대한 최초 기술 보고서. KEY/VALUE는 FROM/TO라고 불렸습니다. ULTRA는 외적 규칙을 사용하여 자체적으로 개발한 KEY/VALUE를 빠른 가중치[FAST][FWP]를 통해 연결하고, 그 결과로 생성된 컨텍스트 기반 어텐션 매핑을 수신 쿼리에 적용합니다. ULTRA의 계산 비용은 입력 크기에 따라 선형적으로 증가합니다. 즉, 텍스트가 1,000배 더 많을 경우 1,000배 더 많은 계산이 필요하며, 이는 허용 가능한 수준입니다. 최신 이차 변환기(아래 참조)와 마찬가지로 1991년 ULTRA는 높은 병렬성을 갖추고 있습니다. 이는 다른 NN의 빠른 가중치 변화를 프로그래밍하도록 학습하는 신경망(NN)[FWP, FWP0-9, FWPMETA1-10]에 대한 보다 일반적인 연구의 부산물이었습니다. 당시에는 빠른 가중치 컨트롤러[FWP0] 또는 빠른 가중치 프로그래머(FWP)[FWP]라고 불렸습니다. ULTRA는 순환 신경망(Recurrent NN)의 대안으로 제시되었습니다[FWP0]. 1991년 실험은 오늘날의 실험과 유사했습니다. 즉, 일련의 입력이 주어졌을 때 어떤 효과를 예측하는 것이었습니다[FWP0]. ★ 1992. 1991년 기술 보고서를 기반으로 ULTRA [FWP1]에 대한 저널 게재. 당시 용어가 달랐음을 참고하십시오. ★ 1993. 반복되는 ULTRA 확장 [FWP2]은 "주의의 내부 스포트라이트" 학습 용어를 소개합니다. ★ 2014. 자연어 처리 분야에서 엔드투엔드 시퀀스-투-시퀀스 모델[S2Sa,b,c,d]이 인기를 얻었습니다. 이 모델은 위에서 언급한 1991년의 비정규화 선형 변환기[ULTRA]가 아니라, 같은 연구실의 장단기 기억(LSTM) 순환 신경망을 기반으로 했습니다. 2014년에는 이 접근 방식이 1991-93년의 어텐션[FWP0-2]처럼 선형화되지는 않았지만 비선형 소프트맥스 연산을 포함하는 어텐션 메커니즘[ATT14]과 결합되었습니다. 최초의 대규모 언어 모델(LLM)은 이러한 LSTM-어텐션 시스템을 기반으로 했습니다. 2016-17년의 어텐션 관련 추가 연구[ATT16a-17b]를 참조하십시오. ★ 2017. 입력 크기가 2차적으로 확장되는 최신 2차 변환기("주의만 있으면 됩니다") [TR1], 즉 1,000배 더 많은 텍스트에 대해 1,000,000배 더 많은 계산이 필요합니다. 1991년 [ULTRA]에는 어떤 저널도 2차적으로 확장되는 신경망을 수용하지 않았지만, 2017년에는 계산 비용이 저렴해져 2차 변환기(일종의 고속 가중치 프로그래머[FWP])를 대용량 병렬 컴퓨터에서 대용량 데이터에 적용할 수 있게 되었습니다. 2차 변환기는 1991년의 가산 외적 고속 가중치 원리[FWP0-2]와 소프트맥스(위의 2014년 참조)를 결합한 것입니다. 주의(쿼리, 키, 값) ~ 소프트맥스(쿼리 키) 값. ★ 2020. 선형화된 주의를 활용하여 선형적으로 확장되는 보다 효율적인 Transformer 변형을 위해 "선형 Transformer"라는 용어를 사용하는 새로운 논문 [TR5] [TR5a]. ★ 2021. 논문 [FWP6]은 비정규화된 선형 변압기 [TR5-6]가 실제로 2021년보다 계산 비용이 백만 배 더 비쌌던 1991년 고속 가중치 컨트롤러 [FWP0][ULTRA]와 수학적으로 동등하다는 점을 지적합니다. ULTRA 및 FWP 개요(2021) [FWP]. ★ 2021-25. ULTRA 및 기타 FWP(예: DeltaNet [FWP6]) 확장에 대한 연구가 주류 연구가 되었으며, 효율적이고 강력한 시퀀스 모델을 개발하는 것을 목표로 합니다[TR6,TR6a][LT23-25][FWP23-25b]. 물론, NN의 일반 외적은 적어도 Konorski의 비공식적인 1948년 규칙[HEB48](나중에 "Hebb 규칙"[HEB49]이라고도 함)과 1960년경 Steinbuch의 학습 행렬[ST61-63][AMH1-2][KOH72][LIT74][PAL80]을 통한 구체적이고 공식적인 구현으로 거슬러 올라갑니다. 양방향 연관 기억(1988)[KOS88]도 참조하십시오. 그러나 이 저자들은 사용자가 제공한 패턴을 서로 연관시키기 위한 사전 배선 규칙을 설명했습니다. ULTRA 및 1991년 이후의 다른 변압기[ULTRA][TR1]와 달리, 이들의 NN은 자체적으로 만든 KEY/VALUE 패턴을 연관시키기 위해 이러한 규칙을 사용하는 방법을 배우지 못했습니다. 규칙을 통해 오류를 역전파[BP4]하여 적절한 시기에 적절한 KEY/VALUE를 생성하고 빠른 가중치의 유용한 변화를 생성합니다. (Malsburg(1981) 및 기타 연구자들이 빠른 가중치를 적용한 초기 NN도 마찬가지였습니다[FAST][FASTa,b][DLP].) ********************* 선택된 참고문헌(남은 참고문헌: Who Invented Transformer Neural Networks? Technical Note IDSIA-11-25, 2025년 11월 - 웹에서 쉽게 찾을 수 있음) [ATT] Juergen의 AI 블로그(2020년, 2025년 업데이트): 종단 간 미분 가능 순차 신경 어텐션 30주년. 목표 조건부 강화 학습 포함. 1990년 황반에 대한 하드 어텐션과 1991-93년 선형화된 자기 어텐션을 갖춘 트랜스포머 형태의 소프트 어텐션이 모두 존재했습니다. [ULTRA] 오늘날 두 유형 모두 매우 인기가 높습니다. [ATT14] D. Bahdanau, K. Cho, Y. Bengio. 정렬 및 번역을 위한 공동 학습을 통한 신경망 기계 번역. 2014-16. 사전 인쇄본 arXiv/1409.0473, 2014-16. [FAST] C. vd Malsburg. 기술 보고서 81-2, Abteilung f. 신경생물학, Max-Planck 연구소 f. Biophysik und Chemie, Goettingen, 1981. 빠른 가중치 또는 동적 링크에 관한 첫 번째 논문. [FWP] 1991년 3월 26일: 신경망은 Transformer 변형처럼 빠른 가중치를 가진 신경망을 프로그래밍하는 법을 학습합니다. 2021년: 새로운 기능! AI 블로그, 2021년 3월 26일, 2025년 업데이트. [FWP0] J. Schmidhuber. 고속 가중치 메모리 제어 학습: 순환 신경망의 대안. 기술 보고서 FKI-147-91, 뮌헨 공과대학, 1991년 3월 26일. 저장과 제어를 분리하는 신경망 고속 가중치 프로그래머(FWP)에 관한 최초의 논문: 저속 신경망은 경사하강법을 통해 고속 신경망의 가중치 변화를 계산한다. 외적 기반 버전(식 5)은 이제 비정규화 선형 변환기 또는 "선형화된 자기-주의 변환기"[ULTRA][FWP]로 알려져 있습니다. [FWP1] J. Schmidhuber. 빠른 가중치 메모리 제어 학습: 순환 신경망의 대안. 신경 계산, 4(1):131-139, 1992. [FWP0] 기반. [FWP2] J. Schmidhuber. 완전 순환 신경망에서 학습 복잡도와 시간 변수 개수의 비율 감소. 암스테르담에서 개최된 국제 인공 신경망 학회 논문집, 460-463쪽. Springer, 1993. 1991년 비정규화 선형 변환기[ULTRA]의 순환 확장으로, "주의의 내부 스포트라이트" 학습이라는 용어를 소개. 외적을 사용하여 가중치 행렬 변화를 프로그래밍하는 최초의 순환 신경망 기반 고속 가중치 프로그래머. [FWP6] I. Schlag, K. Irie, J. Schmidhuber. 선형 변환기는 비밀리에 빠른 가중치 프로그래머입니다. ICML 2021. 사전 인쇄본: arXiv:2102.11174. 정규화되지 않은 선형 변환기가 실제로 1991년 시스템 [FWP0][ULTRA]과 수학적으로 동등함을 보여줍니다. 당시 1991년 시스템은 2021년보다 계산 비용이 백만 배나 더 높았습니다. [FWP7] K. Irie, I. Schlag, R. Csordas, J. Schmidhuber. 순환 고속 가중치 프로그래머를 이용한 선형 변환기의 한계를 넘어서. NeurIPS 2021. 사전 인쇄본: arXiv:2106.06295 [HEB48] J. Konorski (1948). 조건 반사와 뉴런 조직. 저자의 지도 하에 폴란드어 원고를 번역함. Cambridge University Press, 1948. Konorski는 Hebb보다 먼저 소위 "Hebb 규칙"을 발표함[HEB49]. [HEB49] DO Hebb. 행동의 조직. Wiley, New York, 1949. Konorski[HEB48]는 Hebb보다 먼저 소위 "Hebb 규칙"을 발표했습니다. [KOS88] B. Kosko. 양방향 연관 기억. IEEE 시스템, 인간 및 사이버네틱스 저널, 18(1):49-60, 1988. [LT20] A. Katharopoulos, A. Vyas, N. Pappas, F. Fleuret. Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention. 기계 학습 국제 학술 대회(ICML), 2020년 7월. [LT21] I. Bello. LambdaNetworks: 주의 없이 장거리 상호작용 모델링. 사전 인쇄본 arXiv:2102.08602. 선형 변압기 변형. [LT23] K. Irie, R. Csordas, J. Schmidhuber. 선형 변압기와 그 순환 및 자기 참조 확장의 실제 계산 능력. EMNLP 2023. [LT24] S. Yang, B. Wang, Y. Zhang, Y. Shen, Y. Kim. 시퀀스 길이에 대한 델타 규칙을 사용한 선형 변압기 병렬화. NeurIPS 2024. [LT25] S. Yang, J. Kautz, A. Hatamizadeh. 게이트 델타 네트워크: 델타 규칙을 이용한 Mamba2 개선. ICLR 2025. "Mamba2"는 기본적으로 고속 가중치 행렬에 스칼라 시간 감쇠 인자를 적용한 1991년 ULTRA와 동일합니다. [LT25b] R. Grazzi, J. Siems, A. Zela, JKH Franke, F. Hutter, M. Pontil. 음의 고유값을 통한 선형 RNN의 상태 추적 잠금 해제. ICLR 2025. 델타 규칙 확장[FWP6][LT23]이 2차 변환기 및 기타 단순 선형 변환기보다 표현력이 더 뛰어남을 보여줍니다(예: 패리티 및 모듈러 연산 가능). [LT25c] J. Siems, T. Carstensen, A. Zela, F. Hutter, M. Pontil, R. Grazzi. DeltaProduct: Householder Products ICLR 2025 Workshop FM-Wild를 통한 선형 RNN의 상태 추적 개선. 추가적인 "마이크로 단계"를 통해 DeltaNet [FWP6][LT23] 확장. [S2Sa] ML Forcada와 RP Ñeco. 번역을 위한 재귀적 이종연관 메모리. 인공신경망 국제 학술대회, 1997. [S2Sb] T. Mikolov 및 G. Zweig, G. December. 문맥 의존적 순환 신경망 언어 모델. IEEE 음성 언어 기술 워크숍(SLT), 2012. [S2Sc] A. Graves. 순환 신경망을 이용한 시퀀스 변환. 표현 학습 워크숍, 국제 기계 학습 학회(ICML), 2012 [S2Sd] I. Sutskever, O. Vinyals, Quoc V. Le. 신경망을 이용한 시퀀스 대 시퀀스 학습. 신경 정보 처리 시스템 발전(NIPS), 2014, 3104-3112. [ST61] K. 스타인부흐. Lernmatrix를 죽여라. 카이버네틱, 1(1):36-45, 1961. [TR1] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, AN Gomez, L. Kaiser, I. Polosukhin (2017). 주의가 필요한 전부입니다. NIPS 2017, pp. 5998-6008. [TR2] J. Devlin, MW Chang, K. Lee, K. Toutanova (2018). Bert: 언어 이해를 위한 심층 양방향 변환기의 사전 학습. 사전 인쇄본 arXiv:1810.04805. [TR3] K. Tran, A. Bisazza, C. Monz. 계층 구조 모델링을 위한 순환성의 중요성. EMNLP 2018, p 4731-4736. ArXiv 사전 인쇄본 1803.03585. [TR4] M. Hahn. 신경 시퀀스 모델에서 자기주의의 이론적 한계. 계산언어학회 논문지, 제8권, 156-171쪽, 2020. [TR5] A. Katharopoulos, A. Vyas, N. Pappas, F. Fleuret. Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention. Proc. Int. Conf. on Machine Learning (ICML), 2020년 7월. [TR5a] Z. Shen, M. Zhang, H. Zhao, S. Yi, H. Li. 효율적 주의: 선형 복잡도를 고려한 주의. WACV 2021. [TR6] K. Choromanski, V. Likhosherstov, D. Dohan, X. Song, A. Gane, T. Sarlos, P. Hawkins, J. Davis, A. Mohiuddin, L. Kaiser 외. 공연자와 함께 주의력 재고. 학습 표현 국제 학술 대회(ICLR), 2021. [TR6a] H. Peng, N. Pappas, D. Yogatama, R. Schwartz, NA Smith, L. Kong. 무작위 특징 주의. ICLR 2021. [TR7] S. Bhattamishra, K. Ahuja, N. Goyal. 형식 언어를 인식하는 변환기의 능력과 한계에 관하여. EMNLP 2020. [ULTRA] 1991년 비정규화 선형 변환기(ULTRA)에 대한 참고 문헌: 최초 기술 보고서(1991년 3월) [FWP0]. 저널 출판물(1992년) [FWP1]. "주의의 내부 스포트라이트" 학습 용어를 소개하는 반복적인 ULTRA 확장(1993년) [FWP2]. 입력 크기를 2차적으로 확장하는 현대 "2차" 변환기(2017년: "주의만 있으면 된다") [TR1]. 선형화된 주의력을 활용하여 선형적으로 확장되는 더 효율적인 변환기 변형을 위해 "선형 변환기"라는 용어를 사용하는 2020년 논문 [TR5] [TR5a]. ULTRA가 1991년 [FWP0]으로 거슬러 올라가며, 당시 컴퓨팅 비용이 백만 배 더 높았다는 점을 지적하는 2021년 논문 [FWP6]. ULTRA 및 기타 고속 가중치 프로그래머 개요(2021년) [FWP].

Jürgen Schmidhuber(@SchmidhuberAI)의 스레드

작성자 정보

스레드 내용