X (Twitter)

업데이트(2025년 11월): 인공 신경망을 이용한 지식 증류를 발명한 사람은 누구일까요? 기술 참고 자료 IDSIA-12-25(웹에서 쉽게 찾을 수 있음[5]). 2025년, DeepSeek "스푸트니크"[7]는 주식 시장에서 1조 달러를 싹쓸이하며 세상을 놀라게 했습니다. DeepSeek은 한 신경망(NN)에서 다른 신경망으로 지식을 증류합니다. 누가 이것을 발명했을까요? NN 증류는 1991년에 제가 직접 출판했습니다[0]. "의식적" 청커 NN과 "무의식적" 자동화 NN에 대한 4장[0][1]에서 일반 원리를 소개했습니다. 교사 NN이 다른 데이터가 주어졌을 때 (조건부 기대값) 데이터를 예측하는 법을 배웠다고 가정해 보겠습니다. 교사 NN의 지식을 학생 NN으로 압축할 수 있는데, 이는 학생 NN이 교사 NN의 행동을 모방하도록 훈련시키는 동시에 이전에 학습한 기술을 잊지 않도록 학생 NN에 다시 적용하는 것입니다. 1991년에는 이를 한 신경망의 행동을 다른 신경망으로 "축소" 또는 "압축"하는 것으로 불렀습니다. 오늘날 이 방법은 널리 사용되고 있으며, 교사 신경망의 행동을 학생 신경망의 행동으로 "증류" [2][6] 또는 "복제"라고도 합니다. 신경망이 반복적이고 서로 다른 시간 척도에서 작동하는 경우에도 이 방법은 작동합니다 [0][1]. [3][4]도 참조하십시오. 참고문헌(기술 노트 IDSIA-12-25 [5] 참조) [0] J. Schmidhuber. 신경 시퀀스 청커. 기술 보고서 FKI-148-91, 뮌헨 공과대학교, 1991년 4월. [1] J. Schmidhuber. 역사 압축 원리를 사용하여 복잡하고 확장된 시퀀스 학습. 신경 계산, 4(2):234-242, 1992. [0] 기반. [2] O. Vinyals, JA Dean, GE Hinton. 신경망에서 지식 증류. 사전 인쇄본 arXiv:1503.02531, 2015. 저자는 이후 특허 출원에서도 원래 1991년 NN 증류 절차[0][1][DLP]를 인용하지 않았습니다. [3] J. Ba, R. Caruana. 딥 넷은 정말 깊어야 할까요? NIPS 2014. 사전 인쇄본 arXiv:1312.6184(2013). [4] C. Bucilua, R. Caruana 및 A. Niculescu-Mizil. 모델 압축. SIGKDD 지식 발견 및 데이터 마이닝 국제 컨퍼런스, 2006. [5] J. Schmidhuber. 인공 신경망을 이용한 지식 증류를 발명한 사람은 누구입니까? 기술 노트 IDSIA-12-25, IDSIA, 2025년 11월 [6] 튜링상 수상자 3명이 자신들이 만든 주요 방법과 아이디어를 인정하지 않고 재발행한 사례. 기술 보고서 IDSIA-23-23, 2023 [7] DeepSeek-R1: 강화 학습을 통한 LLM의 추론 능력 인센티브 제공. 사전 인쇄본 arXiv:2501.12948, 2025

Jürgen Schmidhuber(@SchmidhuberAI)의 스레드

작성자 정보

스레드 내용