更新(2025年11月):人工ニューラルネットワークによる知識蒸留を発明したのは誰か? テクニカルノートIDSIA-12-25(Webで簡単に見つかります[5])。2025年、DeepSeekの「スプートニク」[7]が世界に衝撃を与え、株式市場から1兆ドルが消失しました。DeepSeekは、あるニューラルネットワーク(NN)から別のニューラルネットワーク(NN)に知識を蒸留します。これを発明したのは誰か? NN蒸留は、筆者によって1991年に公開されました[0]。「意識的」チャンカーNNと「潜在意識的」オートマタイザーNNに関するセクション4 [0][1] で、一般原理が紹介されました。教師NNが、他のデータに基づいて(条件付き期待値)データを予測することを学習したとします。その知識は、生徒NNに教師NNの行動を模倣するように訓練することで(同時に、生徒NNが以前に学習したスキルを忘れないように再学習させることで)、生徒NNに圧縮できます。 1991年当時、これはあるNNの挙動を別のNNに「折り畳む」または「圧縮する」と呼ばれていました。今日では、この手法は広く利用されており、「蒸留」[2][6]、あるいは教師NNの挙動を生徒NNの挙動に「複製する」とも呼ばれています。これは、NNが再帰的で異なる時間スケールで動作している場合でも機能します[0][1]。[3][4]も参照してください。 参考文献(詳細はテクニカルノートIDSIA-12-25 [5]を参照) [0] J. Schmidhuber. ニューラルシーケンスチャンカー. 技術レポートFKI-148-91, ミュンヘン工科大学, 1991年4月. [1] J. Schmidhuber. 履歴圧縮の原理を用いた複雑で拡張されたシーケンスの学習. Neural Computation, 4(2):234-242, 1992. [0]に基づく. [2] O. Vinyals、JA Dean、GE Hinton。ニューラルネットワークにおける知識の蒸留。プレプリントarXiv:1503.02531、2015年。著者らは1991年のオリジナルのNN蒸留手順[0][1][DLP]を引用しておらず、後の特許出願においても引用していない。 [3] J. Ba, R. Caruana. ディープネットは本当に深くする必要があるのか? NIPS 2014. プレプリント arXiv:1312.6184 (2013). [4] C. Bucilua、R. Caruana、A. Niculescu-Mizil「モデル圧縮」、SIGKDD国際知識発見・データマイニング会議、2006年。 [5] J. Schmidhuber. 人工ニューラルネットワークによる知識蒸留を発明したのは誰か? テクニカルノートIDSIA-12-25、IDSIA、2025年11月 [6] 3人のチューリング賞受賞者が、その作成者のクレジットを記載しなかった重要な手法やアイデアをどのように再出版したか。技術レポートIDSIA-23-23、2023年 [7] DeepSeek-R1:強化学習によるLLMの推論能力のインセンティブ化。プレプリントarXiv:2501.12948, 2025
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。