X (Twitter)

2025年，DeepSeek的“Sputnik”模型震惊世界，导致股市市值蒸发万亿美元。DeepSeek[7]将一个神经网络(NN)的知识提炼到另一个神经网络中。是谁发明了这项技术？https://t.co/w0WhIVGXQx 神经网络蒸馏技术由本人于 1991 年发表 [0]。第 4 节讨论了“有意识的”组块神经网络和“无意识的”自动化神经网络 [0][1]，其中引入了一个将people.idsia.ch/~juergen/who-i…则。假设一个教师神经网络已经学会了根据其他数据预测（条件期望）数据。通过训练学生神经网络模仿教师神经网络的行为（同时重新训练学生神经网络以使其不会忘记先前学习的技能），可以将教师神经网络的知识压缩到学生神经网络中。 1991年，这种方法被称为将一个神经网络的行为“折叠”或“压缩”到另一个神经网络中。如今，这种方法已被广泛应用，也被称为将教师神经网络的行为“提炼”[2][6]或“克隆”到学生神经网络中。即使神经网络是循环的且运行在不同的时间尺度上，这种方法也有效[0][1]。另见[3][4]。参考文献（更多信息请参见技术说明 IDSIA-12-25 [5]） [0] J. Schmidhuber. 神经序列分块器。慕尼黑工业大学技术报告 FKI-148-91，1991 年 4 月。 [1] J. Schmidhuber. 使用历史压缩原理学习复杂的扩展序列。神经计算，4(2):234-242, 1992。基于[0]。 [2] O. Vinyals、JA Dean、GE Hinton，《神经网络中的知识提炼》，预印本 arXiv:1503.02531 [https://t.co/yepipeR34S]，2015 年。作者没有引用 1991 年的原始神经网络提炼程序 [0][1][DLP]，甚至在他们后来的专利申请中也没有引用。 [3] J. Ba, R. Caruana. 深度网络真的需要很深吗？NIPS 2014。预印本 arXiv:1312.6184 (2013)。 [4] C. Bucilua、R. Caruana 和 A. Niculescu-Mizil。模型压缩。SIGKDD 国际知识发现与数据挖掘会议，2006 年。 [5] J. Schmidhuber. 谁发明了基于人工神经网络的知识蒸馏？技术报告 IDSIA-12-25，IDSIA，2025 年 11 月 [6] 三位图灵奖获得者如何重新发表了他们未注明出处的关键方法和思想。技术报告 IDSIA-23-23，2023 [7] DeepSeek-R1：通过强化学习激励LLM中的推理能力。预印本arXiv:2501.12948，2025

来自 Jürgen Schmidhuber（@SchmidhuberAI）的推文线程

作者信息

线程正文