X (Twitter)

2025年，DeepSeek的「Sputnik」模型震驚世界，導致股市市值蒸發萬億美元。 DeepSeek[7]將一個神經網路(NN)的知識提煉到另一個神經網路。是誰發明了這項技術？ https://t.co/w0WhIVGXQx 神經網路蒸餾技術由本人於 1991 年發表 [0]。第 4 節討論了「有意識的」組塊神經網路和「無意識的」自動化神經網路 [0][1]，其中引入了一個people.idsia.ch/~juergen/who-i…原則。假設一個教師神經網路已經學會了根據其他數據預測（條件期望）數據。透過訓練學生神經網路模仿教師神經網路的行為（同時重新訓練學生神經網路以使其不會忘記先前學習的技能），可以將教師神經網路的知識壓縮到學生神經網路中。 1991年，這種方法被稱為將一個神經網路的行為「折疊」或「壓縮」到另一個神經網路。如今，這種方法已被廣泛應用，也被稱為將教師神經網路的行為「提煉」[2][6]或「克隆」到學生神經網路中。即使神經網路是循環的且運行在不同的時間尺度上，這種方法也有效[0][1]。另見[3][4]。參考文獻（更多資訊請參閱技術說明 IDSIA-12-25 [5]） [0] J. Schmidhuber. 神經序列分塊器。慕尼黑工業大學技術報告 FKI-148-91，1991 年 4 月。 [1] J. Schmidhuber. 使用歷史壓縮原理學習複雜的擴展序列。神經計算，4(2):234-242, 1992。基於[0]。 [2] O. Vinyals、JA Dean、GE Hinton，《神經網路中的知識精煉》，預印本 arXiv:1503.02531 [https://t.co/yepipeR34S]，2015 年。作者沒有引用 1991 年的原始神經網路提煉程序 [0][1][DLP]，甚至在他們後來的專利申請中也沒有引用。 [3] J. Ba, R. Caruana. 深度網路真的需要很深嗎？ NIPS 2014。預印本 arXiv:1312.6184 (2013)。 [4] C. Bucilua、R. Caruana 與 A. Niculescu-Mizil。模型壓縮。 SIGKDD 國際知識發現與資料探勘會議，2006 年。 [5] J. Schmidhuber. 誰發明了基於人工神經網路的知識蒸餾？技術報告 IDSIA-12-25，IDSIA，2025 年 11 月 [6] 三位圖靈獎得主如何重新發表了他們未註明出處的關鍵方法和想法。技術報告 IDSIA-23-23，2023 [7] DeepSeek-R1：透過強化學習激勵LLM中的推理能力。預印本arXiv:2501.12948，2025

來自 Jürgen Schmidhuber（@SchmidhuberAI）的推文串

作者資訊

推文串內容