2025년, DeepSeek "스푸트니크"는 전 세계를 충격에 빠뜨리며 주식 시장에서 1조 달러를 증발시켰습니다. DeepSeek[7]은 하나의 신경망(NN)에서 다른 신경망으로 지식을 추출합니다. 누가 이것을 발명했을까요? https://t.co/w0WhIVGXQx NN 증류는 1991년에 저[0]에 의해 출판되었습니다. "의식적" 청커people.idsia.ch/~juergen/who-i…4장[0][1]에서는 한 NN의 지식을 다른 NN으로 전이하는 일반 원리를 소개했습니다. 교사 NN이 다른 데이터가 주어졌을 때 (조건부 기대값) 데이터를 예측하는 법을 배웠다고 가정해 보겠습니다. 교사 NN의 지식은 학생 NN으로 압축될 수 있는데, 이는 학생 NN이 교사 NN의 행동을 모방하도록 훈련시키는 동시에 이전에 학습한 기술을 학생 NN이 잊지 않도록 훈련시키는 것입니다. 1991년에는 이를 한 신경망의 행동을 다른 신경망으로 "축소" 또는 "압축"하는 것으로 불렀습니다. 오늘날 이 방법은 널리 사용되고 있으며, 교사 신경망의 행동을 학생 신경망의 행동으로 "증류" [2][6] 또는 "복제"라고도 합니다. 신경망이 반복적이고 서로 다른 시간 척도에서 작동하는 경우에도 이 방법은 작동합니다 [0][1]. [3][4]도 참조하십시오. 참고문헌(기술 노트 IDSIA-12-25 [5] 참조) [0] J. Schmidhuber. 신경 시퀀스 청커. 기술 보고서 FKI-148-91, 뮌헨 공과대학교, 1991년 4월. [1] J. Schmidhuber. 역사 압축 원리를 사용하여 복잡하고 확장된 시퀀스 학습. 신경 계산, 4(2):234-242, 1992. [0] 기반. [2] O. Vinyals, JA Dean, GE Hinton. 신경망에서 지식 증류. 사전 인쇄본 arXiv:1503.02531 [https://t.co/yepipeR34S], 2015. 저자는 1991년의 원래 NN 증류 절차[0][1][DLP]를 인용하지 않았으며, 이후 특허 출원에서도 인용하지 않았습니다. [3] J. Ba, R. Caruana. 딥 넷은 정말 깊어야 할까요? NIPS 2014. 사전 인쇄본 arXiv:1312.6184(2013). [4] C. Bucilua, R. Caruana 및 A. Niculescu-Mizil. 모델 압축. SIGKDD 지식 발견 및 데이터 마이닝 국제 컨퍼런스, 2006. [5] J. Schmidhuber. 인공 신경망을 이용한 지식 증류를 발명한 사람은 누구입니까? 기술 노트 IDSIA-12-25, IDSIA, 2025년 11월 [6] 튜링상 수상자 3명이 자신들이 만든 주요 방법과 아이디어를 인정하지 않고 재발행한 사례. 기술 보고서 IDSIA-23-23, 2023 [7] DeepSeek-R1: 강화 학습을 통한 LLM의 추론 능력 인센티브 제공. 사전 인쇄본 arXiv:2501.12948, 2025
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
![2025년, DeepSeek "스푸트니크"는 전 세계를 충격에 빠뜨리며 주식 시장에서 1조 달러를 증발시켰습니다. DeepSeek[7]은 하나의 신경망(NN)에서 다른 신경망으로 지식을 추출합니다. 누가 이것을 발명](https://pbs.twimg.com/media/G5pRzPSWEAAY7ik.jpg)