X (Twitter)

Em 2025, o DeepSeek “Sputnik” chocou o mundo, eliminando um trilhão de dólares do mercado de ações. O DeepSeek [7] extrai conhecimento de uma rede neural (RN) para outra. Quem inventou isso? hpeople.idsia.ch/~juergen/who-i… A destilação de redes neurais foi publicada em 1991 por mim [0]. A Seção 4 sobre uma rede neural de agrupamento "consciente" e uma rede neural de automatização "subconsciente" [0][1] introduziu um princípio geral para transferir o conhecimento de uma rede neural para outra. Suponha que uma rede neural professora tenha aprendido a prever (expectativas condicionais de) dados, dados outros dados. Seu conhecimento pode ser comprimido em uma rede neural aluna, treinando a rede neural aluna para imitar o comportamento da rede neural professora (enquanto também retreina a rede neural aluna em habilidades previamente aprendidas, de modo que ela não as esqueça). Em 1991, isso era chamado de "colapso" ou "compressão" do comportamento de uma NN em outra. Hoje, isso é amplamente utilizado e também referido como "destilação" [2][6] ou "clonagem" do comportamento de uma NN professora no de uma NN aluna. Funciona mesmo quando as NNs são recorrentes e operam em diferentes escalas de tempo [0][1]. Veja também [3][4]. REFERÊNCIAS (mais na Nota Técnica IDSIA-12-25 [5]) [0] J. Schmidhuber. Segmentadores de sequência neural. Relatório técnico FKI-148-91, TU Munique, abril de 1991. [1] J. Schmidhuber. Aprendendo sequências complexas e extensas usando o princípio da compressão de história. Neural Computation, 4(2):234-242, 1992. Baseado em [0]. [2] O. Vinyals, JA Dean, GE Hinton. Destilando o conhecimento em uma rede neural. Preprint arXiv:1503.02531 [https://t.co/yepipeR34S], 2015. Os autores não citaram o procedimento original de destilação de NN de 1991 [0][1][DLP], nem mesmo em seu pedido de patente posterior. [3] J. Ba, R. Caruana. As redes profundas realmente precisam ser profundas? NIPS 2014. Preprint arXiv:1312.6184 (2013). [4] C. Bucilua, R. Caruana e A. Niculescu-Mizil. Compressão de modelos. Conferência internacional SIGKDD sobre descoberta de conhecimento e mineração de dados, 2006. [5] J. Schmidhuber. Quem inventou a destilação de conhecimento com redes neurais artificiais? Nota Técnica IDSIA-12-25, IDSIA, novembro de 2025 [6] Como 3 laureados com o Prêmio Turing republicaram métodos e ideias importantes cujos criadores eles não creditaram. Relatório Técnico IDSIA-23-23, 2023 [7] DeepSeek-R1: Incentivando a capacidade de raciocínio em LLMs por meio de aprendizado por reforço. Preprint arXiv:2501.12948, 2025

Thread de Jürgen Schmidhuber (@SchmidhuberAI)

Informações do autor

Conteúdo da thread