O Google apresenta um novo paradigma de aprendizado de máquina: o Nested Learning, que aborda o problema do esquecimento catastrófico no aprendizado contínuo dentro da estrutura LLM. A ideia central não é treinar o modelo como uma entidade única e monolítica, mas sim como um conjunto de sistemas de aprendizagem menores aninhados. Essa abordagem trata o modelo como um sistema de múltiplos problemas de otimização aninhados, cada subsistema com seu próprio ritmo de aprendizado e fluxo de informações, em vez de um processo de treinamento unificado. Isso aprimora a capacidade do LLM de lidar com contextos longos e possibilita o aprendizado contínuo. Eles utilizaram um modelo de arquitetura automodificável chamado Hope para testar e validar essa abordagem, e os resultados mostraram que ele possuía melhores capacidades de gerenciamento de memória de contexto longo do que os modelos de última geração existentes. Ele supera o Titans, o Samba e o Transformer básico em tarefas de modelagem de linguagem e raciocínio de senso comum; e supera o Titans, o TTT e o Mamba2 no gerenciamento de contextos longos. Primeiro, os parâmetros são estratificados e a mesma matriz de pesos é dividida em W₁, W₂, ..., Wₙ de acordo com o período de atualização (período 1, 4, 16, 64... etapas). Assim, o sistema de memória contínua vê a memória como um "espectro", com diferentes módulos responsáveis por informações de diferentes durações, evitando dessa forma o esquecimento do que foi aprendido. O otimizador profundo é aprimorado ao tratá-lo como um módulo de memória associativa, refinando assim sua função objetivo e aumentando sua robustez ao ruído. O código de treinamento adiciona apenas uma linha da condição "atualizar posteriormente"; o restante da estrutura permanece inalterado.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
