X (Twitter)

2025年、ディープシークの「スプートニク」が世界に衝撃を与え、株式市場から1兆ドルが消失しました。ディープシーク[7]は、あるニューラルネットワーク（NN）から別のニューラルネットワークに知識を抽出します。誰がこれを発明したのでしょうか？ https://t.co/w0WhIVGXQx NN蒸留法は1991年に筆者によって発表されました[0]。第4章「意識的」チャンカーNNとpeople.idsia.ch/~juergen/who-i…では、あるNNの知識を別のNNに転送するための一般原理が紹介されました。教師NNが、他のデータが与えられた場合に、（条件付き期待値）データを予測することを学習したとします。その知識は、生徒NNに教師NNの行動を模倣するように訓練することで、生徒NNに圧縮できます（同時に、生徒NNが以前に学習したスキルを忘れないように、再度学習させる必要があります）。 1991年当時、これはあるNNの挙動を別のNNに「折り畳む」または「圧縮する」と呼ばれていました。今日では、この手法は広く利用されており、「蒸留」[2][6]、あるいは教師NNの挙動を生徒NNの挙動に「複製する」とも呼ばれています。これは、NNが再帰的で異なる時間スケールで動作している場合でも機能します[0][1]。[3][4]も参照してください。参考文献（詳細はテクニカルノートIDSIA-12-25 [5]を参照） [0] J. Schmidhuber. ニューラルシーケンスチャンカー. 技術レポートFKI-148-91, ミュンヘン工科大学, 1991年4月. [1] J. Schmidhuber. 履歴圧縮の原理を用いた複雑で拡張されたシーケンスの学習. Neural Computation, 4(2):234-242, 1992. [0]に基づく. [2] O. Vinyals、JA Dean、GE Hinton。ニューラルネットワークにおける知識の蒸留。プレプリントarXiv:1503.02531 [https://t.co/yepipeR34S]、2015年。著者らは1991年のオリジナルのNN蒸留手順[0][1][DLP]を引用しておらず、後の特許出願においても引用していない。 [3] J. Ba, R. Caruana. ディープネットは本当に深くする必要があるのか？ NIPS 2014. プレプリント arXiv:1312.6184 (2013). [4] C. Bucilua、R. Caruana、A. Niculescu-Mizil「モデル圧縮」、SIGKDD国際知識発見・データマイニング会議、2006年。 [5] J.シュミットフーバー「人工ニューラルネットワークによる知識蒸留を発明したのは誰か？」テクニカルノートIDSIA-12-25、IDSIA、2025年11月 [6] 3人のチューリング賞受賞者が、その作成者のクレジットを記載しなかった重要な手法やアイデアをどのように再出版したか。技術レポートIDSIA-23-23、2023年 [7] DeepSeek-R1:強化学習によるLLMの推論能力のインセンティブ化。プレプリントarXiv:2501.12948, 2025

Jürgen Schmidhuber（@SchmidhuberAI）のスレッド

作者情報

スレッド内容