X (Twitter)

Com base no que Wang Guan mencionou, um pesquisador da OpenAI compartilhou anteriormente em Stanford a experiência de usar IA para escrever um artigo de fácil compreensão. O que exatamente o treinamento GPT faz? A maioria das pessoas diria "aprender as regras da língua" ou "prever a próxima palavra". Todas essas afirmações estão corretas, mas não são suficientemente profundas. Jack Rae, da OpenAI, propôs uma nova perspectiva em Stanford: treinar grandes modelos de linguagem é essencialmente realizar compressão sem perdas. Isso é contraintuitivo, não é? Como um modelo com 175 parâmetros pode ser "comprimido"? Mas se você entender essa perspectiva, muitas das suas dúvidas ficarão repentinamente esclarecidas. Vamos começar falando um pouco de filosofia. Já no século IV a.C., Aristóteles afirmou: "Um argumento derivado de menos pressupostos é frequentemente superior". Essa ideia de que "a simplicidade é a beleza" foi posteriormente resumida por Ockham, no século XIV, no famoso princípio da "Navalha de Ockham": a explicação mais simples é, muitas vezes, a correta. No entanto, essas especulações filosóficas foram transformadas em teoremas matemáticos comprováveis por Ray Solomonoff em 1964: Se um conjunto de dados for gerado por um determinado algoritmo, a melhor maneira de prever esse conjunto de dados é encontrar o menor arquivo executável compactado que o contenha. O teorema é bastante engenhoso; afirma que quanto melhor você comprime os dados, melhor você entende sua essência. Relembre a clássica experiência mental do "Quarto Chinês". Uma pessoa segurava um enorme livro de regras, que continha todas as frases possíveis em inglês e suas respectivas traduções para o chinês. Essa pessoa realmente "entende" de tradução? Do ponto de vista da compressão, a resposta é clara: este manual é muito extenso e representa a pior maneira de compreendê-lo. Se uma nova palavra ou expressão aparecer, o sistema trava imediatamente porque está apenas consultando uma tabela e ainda não compreendeu verdadeiramente as regras da linguagem. Mas se você conseguir condensar este manual em um conjunto conciso de regras gramaticais e vocabulário essencial, aí a história muda. Quanto maior a taxa de compressão, mais fundamental será o padrão extraído e maior será sua capacidade de generalização. Modelos de linguagem grandes são os melhores compressores. Vamos analisar primeiro um conjunto de números surpreendentes. O modelo Llama da Meta, versão 65B, foi treinado durante uma época com 1,4 trilhão de tokens. O tamanho original dos dados era de 5,6 TB, mas se este modelo for usado para "comprimi-los", serão necessários apenas cerca de 400 GB de espaço no final. Taxa de compressão de 14 vezes. Em comparação, o melhor algoritmo tradicional de compressão de texto até o momento (vencedor do Prêmio Hutter) atinge uma taxa de compressão de 8,7x. Os modelos de linguagem de grande porte já são os compressores de texto sem perdas mais avançados. Você pode perguntar: Espere, o modelo 65B não tem 260 GB? Como você pode dizer que ele tem apenas 400 GB após a compressão? Essa é a parte mais emocionante. Não é necessário transferir os pesos do modelo; a chave é entender o verdadeiro significado de "compressão". Imagine que você queira enviar todo o conteúdo da Wikipédia para um amigo, mas sua largura de banda é muito baixa. O método tradicional é usar a compressão gzip, mas existe uma maneira mais inteligente: Você enviou duas coisas para seu amigo: 1. Um trecho de código para treinar um Transformer (apenas 1 MB) 2. A sequência de dados comprimidos usando este modelo (400 GB) Após receber o código, meu amigo o utilizou para treinar um modelo idêntico do zero. Para cada token previsto, os dados comprimidos são "decodificados" para revelar o token real, e então o treinamento continua para prever o próximo. Ao repetir esse processo, os 5,6 TB de dados originais podem ser completamente restaurados. Entende? Os pesos do modelo nunca precisam ser transmitidos. Quer você treine um Transformer de 10 camadas ou de 1000 camadas, a complexidade do código de inicialização é praticamente a mesma. Os dados que realmente ocupam espaço são os "dados comprimidos", e seu tamanho depende da precisão das previsões do modelo. É por isso que modelos maiores são, na verdade, melhor comprimidos. Vamos redefinir o conceito de "simplicidade". O aprendizado de máquina tradicional nos diz que "modelos menores generalizam melhor" porque são "mais simples". No entanto, "simples" aqui se refere a ter menos parâmetros. A perspectiva da compressão nos ensina que a verdadeira simplicidade não se resume a ter menos parâmetros, mas sim a descrever os dados de forma mais concisa. As versões Llama 33B e 65B têm a mesma "complexidade de código" (ambas possuem 1 MB de código de treinamento), mas a 65B comprime os dados para que sejam menores. Fundamentalmente, o 65B é um modelo "mais simples" e também um modelo mais inteligente. É por isso que modelos grandes não sofrem de sobreajuste e por que as leis de escala são eficazes. Contanto que o modelo consiga comprimir os dados de forma mais eficiente, ele aprenderá regras mais fundamentais e terá uma capacidade de generalização maior. As perspectivas comprimidas também nos oferecem um benefício especial: são o único objetivo de treinamento independente do jogo. A contaminação do conjunto de testes é um problema grave em avaliações de modelos de grande porte. No entanto, esse problema não existe quando a medição é feita por compressão. Suponha que você inclua todo o conjunto de teste no conjunto de treinamento, permitindo que o modelo o memorize perfeitamente. Dessa forma, a precisão da previsão do modelo é de 100%, e a porção de dados comprimidos torna-se de fato 0. Mas qual é o custo? Você precisa incluir todo o conjunto de dados no "comprimento da descrição do modelo". O efeito geral de compressão, na verdade, piorou. Essa é a elegância da compressão: qualquer tentativa de trapaça será matematicamente exposta. Somente compreendendo verdadeiramente os princípios essenciais poderemos alcançar uma melhor compressão. Dessa perspectiva, o caminho para a IAG (Inteligência Artificial Geral) torna-se claro: Reúna todas as informações perceptivas úteis e, em seguida, comprima-as ao máximo. Qualquer método que possa melhorar a taxa de compressão vale a pena ser estudado: • Melhor arquitetura (S4, atenção esparsa) • Continuar a escalar (modelo maior, mais dados) • Utilização de ferramentas (calculadora, motor de busca) • Dados Sintéticos • Fusão Multimodal Desde que consiga reduzir o "tamanho total após a compressão", está caminhando em direção à IAG (Inteligência Artificial Geral). Olhando para a história, cada mudança de paradigma na IA foi essencialmente um salto comprimido: • Os n-gramas nos fornecem o reconhecimento básico de fala. • As RNNs nos permitem gerar parágrafos coerentes e realizar tradução automática. • Os Transformers em larga escala nos permitem compreender documentos longos e realizar raciocínio complexo. A cada passo, comprimimos as informações do mundo de forma mais compacta e as compreendemos mais profundamente. É claro que essa perspectiva também tem limitações. Para dados de alta dimensionalidade, como imagens e vídeos, a modelagem pixel a pixel pode ser correta, mas impraticável. A carga computacional seria explosiva. Talvez seja necessário realizar alguma filtragem semântica primeiro. Mais importante ainda, muita informação útil no mundo não é observável. Por exemplo, na "árvore de busca" de um mestre de Go, você só pode ver os lances realizados, não os ramos que ele considera. É por isso que o AlphaZero precisa jogar contra si mesmo; ele gera esses dados não observáveis. Portanto, a compressão de dados observáveis é necessária, mas não suficiente. O aprendizado por reforço e a exploração proativa continuam sendo métodos essenciais. Mas, em todo caso, a compressão nos dá uma nova perspectiva para entendermos a inteligência. Quando dizemos que um modelo "desenvolveu" novas capacidades, isso significa essencialmente que a taxa de compressão ultrapassou um determinado ponto crítico? Quando dizemos que um modelo "compreende" um conceito, isso significa que ele encontrou uma maneira mais concisa de codificar a informação relevante? Ao buscarmos a Inteligência Artificial Geral (AGI), estamos procurando o comprimento mínimo descritivo da informação no universo? Não existem respostas padrão para essas perguntas. Mas é precisamente isso que torna este campo tão fascinante: estamos usando matemática e engenharia para explorar a natureza da inteligência. A essência da inteligência pode residir na concisão. O que estamos fazendo agora é dar passos nessa direção rumo à resposta mais simples e elegante.

Endereçyoutube.com/watch?v=dO4TPJ…tps://t.co/0PHaKYslmc

Thread de 向阳乔木 (@vista8)

Informações do autor

Conteúdo da thread