X (Twitter)

更新（2025 年 11 月）：誰發明了利用人工神經網路進行知識蒸餾？技術說明 IDSIA-12-25（很容易在網路上找到 [5]）。 2025 年，DeepSeek 的「Sputnik」[7] 震驚了全世界，導致股市市值蒸發萬億美元。 DeepSeek 將知識從一個神經網路 (NN) 蒸餾到另一個神經網路。是誰發明了這項技術？神經網路蒸餾的概念由我自己於 1991 年發表 [0]。在「有意識」組塊神經網路和「無意識」自動化神經網路的第四節 [0][1] 中，我介紹了這個基本原理。假設一個教師神經網路已經學會了根據其他數據預測（條件期望）數據。透過訓練學生神經網路模仿教師神經網路的行為（同時重新訓練學生神經網絡，使其不會忘記先前學習的技能），可以將教師神經網路的知識壓縮到一個學生神經網路中。 1991年，這種方法被稱為將一個神經網路的行為「折疊」或「壓縮」到另一個神經網路。如今，這種方法已被廣泛應用，也被稱為將教師神經網路的行為「提煉」[2][6]或「克隆」到學生神經網路中。即使神經網路是循環的且運行在不同的時間尺度上，這種方法也有效[0][1]。另見[3][4]。參考文獻（更多資訊請參閱技術說明 IDSIA-12-25 [5]） [0] J. Schmidhuber. 神經序列分塊器。慕尼黑工業大學技術報告 FKI-148-91，1991 年 4 月。 [1] J. Schmidhuber. 使用歷史壓縮原理學習複雜的擴展序列。神經計算，4(2):234-242, 1992。基於[0]。 [2] O. Vinyals、JA Dean、GE Hinton。《神經網路中的知識提煉》。預印本 arXiv:1503.02531，2015 年。作者沒有引用 1991 年的原始神經網路提煉程序 [0][1][DLP]，甚至在他們後來的專利申請中也沒有引用。 [3] J. Ba, R. Caruana. 深度網路真的需要很深嗎？ NIPS 2014。預印本 arXiv:1312.6184 (2013)。 [4] C. Bucilua、R. Caruana 與 A. Niculescu-Mizil。模型壓縮。 SIGKDD 國際知識發現與資料探勘會議，2006 年。 [5] J. Schmidhuber. 誰發明了基於人工神經網路的知識蒸餾？技術報告 IDSIA-12-25，IDSIA，2025 年 11 月 [6] 三位圖靈獎得主如何重新發表了他們未註明出處的關鍵方法和想法。技術報告 IDSIA-23-23，2023 [7] DeepSeek-R1：透過強化學習激勵LLM中的推理能力。預印本arXiv:2501.12948，2025

來自 Jürgen Schmidhuber（@SchmidhuberAI）的推文串

作者資訊

推文串內容