O incrível artigo mencionado por Jeff Dean, guru de tecnologia do Google: Titans Deixe a IA fornecer uma explicação simples. A Titans confere à IA uma "memória verdadeira", permitindo-lhe lembrar-se de coisas importantes como um humano, esquecer coisas sem importância e aprender e memorizar à medida que é utilizada. Três características impressionantes: 1. Resolveu o problema da "memória do peixinho dourado" na IA. Transformer: Como um aluno brilhante, lembra-se de tudo com clareza, mas não consegue reter muita informação (só consegue ler alguns milhares de palavras). As RNNs tradicionais são como maníacas da compressão, amontoando tudo em uma caixa pequena, resultando em não se lembrarem de nada. Solução dos Titãs - Memória de curto prazo: utilização de mecanismos de atenção para processar com precisão o conteúdo visualizado no momento. - Memória de longo prazo: Utilizar redes neurais como o "cérebro" para codificar informações importantes em parâmetros. - Memória persistente: Armazenar conhecimento sobre a própria tarefa. Assim como o cérebro humano, os três tipos de memória têm cada um sua própria função. 2. Capaz de discernir o que vale a pena lembrar. Inovação central: Inspirando-se no sistema de memória humana: eventos inesperados são mais facilmente lembrados, o que é definido como uma métrica de surpresa. Leia as notícias: Ao ver "O tempo está bom hoje" → Não se surpreenda, não precisa memorizar isso. Fiquei surpreso ao ver "Vida descoberta em Marte", então anotei rapidamente. - Relatórios de acompanhamento → Embora já não me surpreenda tanto, ainda vale a pena lembrar porque está relacionado com eventos importantes anteriores. Como os Titãs funcionam: - Surpresa atual: Quão diferente é esta informação do que eu já vi antes? - Surpresas históricas: ocorreu algum evento significativo recentemente? - Esquecimento adaptativo: Por quanto tempo essa memória deve ser retida? 3. Aprenda enquanto usa e você se tornará mais inteligente quanto mais o usar. Os modelos tradicionais são fixos após o treinamento; durante o teste, eles só conseguem "recordar" em vez de "aprender". O módulo de memória dos Titans ainda estava sendo atualizado durante os testes, ajustando a memória em tempo real ao detectar novo conteúdo. Quão dramáticos foram os resultados experimentais? Compreensão de texto extremamente longo, tarefa "Agulha no Palheiro" Encontre uma informação fundamental em um artigo de 16.000 palavras; taxa de precisão dos Titans: 96%+. Meu oponente mais forte, Mamba2: 5,4% (basicamente um palpite) A tarefa de raciocínio extremamente difícil de BABILong: deduzir a partir de um documento de um milhão de palavras. O Titans, com menos de 1/70 do número de parâmetros, derrotou o Llama 3.1 com 70 bilhões de parâmetros e até superou o GPT-4. Eles também têm um bom desempenho em tarefas rotineiras. - Modelagem de linguagem: Melhor que o Transformer e todas as RNNs lineares - Previsão de séries temporais: Liderança em 7 conjuntos de dados - Análise de sequências genéticas: Alcançando o nível de excelência (SOTA) ideal Por que outros modelos não conseguem fazer isso? O dilema do Transformer: Quer memorizar 1 milhão de palavras? A memória explode, não consegue calcular, só consegue visualizar janelas de tamanho fixo. O problema com as RNNs lineares é que elas comprimem o histórico em um vetor ou matriz, o que é como resumir um livro em uma única frase. Muita informação é perdida, não há mecanismo de esquecimento e, com o tempo, o "cérebro" fica confuso. Vantagens dos Titans - Memória profunda: Utilizar redes neurais multicamadas como memória é muito mais poderoso do que uma única matriz. - Mecanismo de impulso: Observe não apenas o presente, mas também as tendências recentes. - O Portal do Esquecimento: Esqueça o que deve ser esquecido, lembre-se do que deve ser lembrado. - Treinamento paralelo: Embora complexo, não é lento. Engenhosidade técnica Transformar o "aprendizado" em "memória" envolve o uso de um módulo de memória que essencialmente realiza o processo de descida de gradiente, mas isso é feito durante o teste, tornando-o equivalente a um "meta-aprendiz". Muitos métodos existentes foram unificados: - O Portão Esquecido de Mamba? Um Caso Especial de Titãs - As regras incrementais da DeltaNet? Uma versão simplificada dos Titãs. - Treinamento em tempo de teste TTT? Os Titans adicionaram impulso e esquecimento. Por que esse trabalho é importante? Isso abriu novas avenidas de pensamento, indo além de simplesmente "ampliar o modelo" ou "otimizar a atenção", e repensando a arquitetura a partir da perspectiva do sistema de memória. Abordando problemas reais: análise de documentos extensos, compreensão de vídeos longos e cenários de aprendizagem contínua. A última analogia Transformer = memória da câmera, consegue se lembrar de tudo o que vê, mas só pode observar uma pequena parte de cada vez. As RNNs tradicionais são como fazer anotações, resumindo tudo em algumas frases, mas perdendo os detalhes. Titãs = Cérebro Humano Memória de curto prazo: processa informações atuais. - Memória de longo prazo: armazenamento de experiências importantes Metamemória: Saber como aprender Esqueça as coisas sem importância. O que o torna forte? 1. Consigo lembrar mais: Expandindo para 2 milhões de tokens, outros modelos já teriam entrado em colapso há muito tempo. 2. Memorize com mais precisão: Saiba o que é importante e o que deve ser esquecido. 3. Fica mais inteligente quanto mais você o usa: Ele ainda está aprendendo durante os testes. 4. A teoria é garantida: existem provas matemáticas e experimentos. 5. Os experimentos são muito impressionantes: todas as tarefas estão no nível de última geração (SOTA) ou muito próximas a ele. Isso é realmente incrível!
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.