更新(2025 年 11 月):誰發明了利用人工神經網路進行知識蒸餾?技術說明 IDSIA-12-25(很容易在網路上找到 [5])。 2025 年,DeepSeek 的「Sputnik」[7] 震驚了全世界,導致股市市值蒸發萬億美元。 DeepSeek 將知識從一個神經網路 (NN) 蒸餾到另一個神經網路。是誰發明了這項技術?神經網路蒸餾的概念由我自己於 1991 年發表 [0]。在「有意識」組塊神經網路和「無意識」自動化神經網路的第四節 [0][1] 中,我介紹了這個基本原理。假設一個教師神經網路已經學會了根據其他數據預測(條件期望)數據。透過訓練學生神經網路模仿教師神經網路的行為(同時重新訓練學生神經網絡,使其不會忘記先前學習的技能),可以將教師神經網路的知識壓縮到一個學生神經網路中。 1991年,這種方法被稱為將一個神經網路的行為「折疊」或「壓縮」到另一個神經網路。如今,這種方法已被廣泛應用,也被稱為將教師神經網路的行為「提煉」[2][6]或「克隆」到學生神經網路中。即使神經網路是循環的且運行在不同的時間尺度上,這種方法也有效[0][1]。另見[3][4]。 參考文獻(更多資訊請參閱技術說明 IDSIA-12-25 [5]) [0] J. Schmidhuber. 神經序列分塊器。慕尼黑工業大學技術報告 FKI-148-91,1991 年 4 月。 [1] J. Schmidhuber. 使用歷史壓縮原理學習複雜的擴展序列。神經計算,4(2):234-242, 1992。基於[0]。 [2] O. Vinyals、JA Dean、GE Hinton。 《神經網路中的知識提煉》。預印本 arXiv:1503.02531,2015 年。作者沒有引用 1991 年的原始神經網路提煉程序 [0][1][DLP],甚至在他們後來的專利申請中也沒有引用。 [3] J. Ba, R. Caruana. 深度網路真的需要很深嗎? NIPS 2014。預印本 arXiv:1312.6184 (2013)。 [4] C. Bucilua、R. Caruana 與 A. Niculescu-Mizil。模型壓縮。 SIGKDD 國際知識發現與資料探勘會議,2006 年。 [5] J. Schmidhuber. 誰發明了基於人工神經網路的知識蒸餾?技術報告 IDSIA-12-25,IDSIA,2025 年 11 月 [6] 三位圖靈獎得主如何重新發表了他們未註明出處的關鍵方法和想法。技術報告 IDSIA-23-23,2023 [7] DeepSeek-R1:透過強化學習激勵LLM中的推理能力。預印本arXiv:2501.12948,2025
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。