2025年,DeepSeek的「Sputnik」模型震驚世界,導致股市市值蒸發萬億美元。 DeepSeek[7]將一個神經網路(NN)的知識提煉到另一個神經網路。是誰發明了這項技術? https://t.co/w0WhIVGXQx 神經網路蒸餾技術由本人於 1991 年發表 [0]。第 4 節討論了「有意識的」組塊神經網路和「無意識的」自動化神經網路 [0][1],其中引入了一個people.idsia.ch/~juergen/who-i…原則。假設一個教師神經網路已經學會了根據其他數據預測(條件期望)數據。透過訓練學生神經網路模仿教師神經網路的行為(同時重新訓練學生神經網路以使其不會忘記先前學習的技能),可以將教師神經網路的知識壓縮到學生神經網路中。 1991年,這種方法被稱為將一個神經網路的行為「折疊」或「壓縮」到另一個神經網路。如今,這種方法已被廣泛應用,也被稱為將教師神經網路的行為「提煉」[2][6]或「克隆」到學生神經網路中。即使神經網路是循環的且運行在不同的時間尺度上,這種方法也有效[0][1]。另見[3][4]。 參考文獻(更多資訊請參閱技術說明 IDSIA-12-25 [5]) [0] J. Schmidhuber. 神經序列分塊器。慕尼黑工業大學技術報告 FKI-148-91,1991 年 4 月。 [1] J. Schmidhuber. 使用歷史壓縮原理學習複雜的擴展序列。神經計算,4(2):234-242, 1992。基於[0]。 [2] O. Vinyals、JA Dean、GE Hinton,《神經網路中的知識精煉》,預印本 arXiv:1503.02531 [https://t.co/yepipeR34S],2015 年。作者沒有引用 1991 年的原始神經網路提煉程序 [0][1][DLP],甚至在他們後來的專利申請中也沒有引用。 [3] J. Ba, R. Caruana. 深度網路真的需要很深嗎? NIPS 2014。預印本 arXiv:1312.6184 (2013)。 [4] C. Bucilua、R. Caruana 與 A. Niculescu-Mizil。模型壓縮。 SIGKDD 國際知識發現與資料探勘會議,2006 年。 [5] J. Schmidhuber. 誰發明了基於人工神經網路的知識蒸餾?技術報告 IDSIA-12-25,IDSIA,2025 年 11 月 [6] 三位圖靈獎得主如何重新發表了他們未註明出處的關鍵方法和想法。技術報告 IDSIA-23-23,2023 [7] DeepSeek-R1:透過強化學習激勵LLM中的推理能力。預印本arXiv:2501.12948,2025
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
![2025年,DeepSeek的「Sputnik」模型震驚世界,導致股市市值蒸發萬億美元。 DeepSeek[7]將一個神經網路(NN)的知識提煉到另一個神經網路。是誰發明了這項技術? https://t.co/w0WhIVGXQx
神經網](https://pbs.twimg.com/media/G5pRzPSWEAAY7ik.jpg)