X (Twitter)

Atualização (nov. 2025): Quem inventou a destilação de conhecimento com redes neurais artificiais? Nota Técnica IDSIA-12-25 (fácil de encontrar na web [5]). Em 2025, o DeepSeek “Sputnik” [7] chocou o mundo, eliminando um trilhão de dólares do mercado de ações. O DeepSeek destila conhecimento de uma rede neural (RN) para outra. Quem inventou isso? A destilação de RN foi publicada por mim em 1991 [0]. A Seção 4 sobre uma RN segmentadora “consciente” e uma RN automatizadora “subconsciente” [0][1] introduziu o princípio geral. Suponha que uma RN professora tenha aprendido a prever (expectativas condicionais de) dados, dados outros dados. Seu conhecimento pode ser comprimido em uma RN aluna, treinando a RN aluna para imitar o comportamento da RN professora (enquanto também retreina a RN aluna em habilidades previamente aprendidas, de modo que ela não as esqueça). Em 1991, isso era chamado de "colapso" ou "compressão" do comportamento de uma NN em outra. Hoje, isso é amplamente utilizado e também referido como "destilação" [2][6] ou "clonagem" do comportamento de uma NN professora no de uma NN aluna. Funciona mesmo quando as NNs são recorrentes e operam em diferentes escalas de tempo [0][1]. Veja também [3][4]. REFERÊNCIAS (mais na Nota Técnica IDSIA-12-25 [5]) [0] J. Schmidhuber. Segmentadores de sequência neural. Relatório técnico FKI-148-91, TU Munique, abril de 1991. [1] J. Schmidhuber. Aprendendo sequências complexas e extensas usando o princípio da compressão de história. Neural Computation, 4(2):234-242, 1992. Baseado em [0]. [2] O. Vinyals, JA Dean, GE Hinton. Destilando o conhecimento em uma rede neural. Preprint arXiv:1503.02531, 2015. Os autores não citaram o procedimento de destilação NN original de 1991 [0][1][DLP], nem mesmo em seu pedido de patente posterior. [3] J. Ba, R. Caruana. As redes profundas realmente precisam ser profundas? NIPS 2014. Preprint arXiv:1312.6184 (2013). [4] C. Bucilua, R. Caruana e A. Niculescu-Mizil. Compressão de modelos. Conferência internacional SIGKDD sobre descoberta de conhecimento e mineração de dados, 2006. [5] J. Schmidhuber. Quem inventou a destilação de conhecimento com redes neurais artificiais? Nota Técnica IDSIA-12-25, IDSIA, novembro de 2025 [6] Como 3 laureados com o Prêmio Turing republicaram métodos e ideias importantes cujos criadores eles não creditaram. Relatório Técnico IDSIA-23-23, 2023 [7] DeepSeek-R1: Incentivando a capacidade de raciocínio em LLMs por meio de aprendizado por reforço. Preprint arXiv:2501.12948, 2025

Thread de Jürgen Schmidhuber (@SchmidhuberAI)

Informações do autor

Conteúdo da thread