Ilya compartilhou há algum tempo que a essência do aprendizado não supervisionado é a "compressão", e compressão é aprendizado, o que foi muito esclarecedor. Compressão é aprendizado: uma explicação mais simples. Suponha que você tenha duas pastas: ① Pasta X: Um conjunto de fotos sem rótulo (dados não supervisionados) ② Pasta Y: A tarefa que você precisa realizar, como identificar gatos e cachorros (com dados etiquetados). Agora, utilize um software de compressão para compactar essas duas pastas em um único arquivo. Aconteceu algo incrível: Se o software de compressão for inteligente o suficiente, ele encontrará padrões comuns em X e Y (como características como "bordas difusas" ou "quatro pernas") e, em seguida, usará esses padrões comuns para comprimi-los a um tamanho menor. É exatamente isso que o aprendizado não supervisionado faz. O aprendizado supervisionado é muito claro: Você diz para a máquina: "Isto é um gato, aquilo é um cachorro." A máquina aprendeu, resultando em alta precisão no treinamento e alta precisão nos testes. - Existe uma fórmula matemática para garantir isso. Mas a aprendizagem não supervisionada é estranha: Você pede à máquina para prever "qual será o próximo pixel". Mas o que você realmente quer é "identificar gatos e cachorros". Essas duas tarefas são completamente diferentes! Como a previsão de pixels pode ajudar a identificar gatos e cachorros? Anteriormente, sabíamos apenas que o aprendizado não supervisionado "é de fato útil", mas não conseguíamos explicar por que ele era necessariamente útil. Ilya afirma que tudo fica claro se você pensar na aprendizagem não supervisionada como um problema de compressão. Boa compressão = encontrar padrões nos dados - Se uma imagem estiver repleta de ruído aleatório, não será possível comprimi-la. - Se houver um padrão na imagem (como o céu todo azul e a grama toda verde), você pode comprimi-la. então: Prever o próximo pixel = Encontrar padrões entre pixels = Comprimir a imagem Quanto melhor for o padrão encontrado, mais intensa será a compressão e mais útil será o aprendizado. Em 2020, a equipe Ilya realizou um experimento: 1. Converta a imagem em uma sequência de pixels: pixel 1, pixel 2, pixel 3... 2. Treinamento do modelo para previsão: Observando os pixels anteriores, tente adivinhar qual será o próximo. 3. Quanto maior o modelo, mais precisa será a previsão. 4. Algo surpreendente aconteceu: quanto mais precisas as previsões do modelo, mais preciso ele era na classificação de imagens. Isso prova que uma forte capacidade de compressão equivale a uma forte capacidade de aprendizado. Antiga confusão: Eu te ensinei a "prever a próxima palavra", então como é que você sabe "escrever uma redação"? Não são a mesma coisa. Explicação de Ilya: Para fazer previsões precisas, é necessário compreender as regras mais profundas da linguagem. Esses princípios também são úteis para escrever redações. Resumidamente: Para escrever um romance, é preciso compreender o enredo, os personagens e a gramática. Esses entendimentos em si constituem "aprendizado". Quanto melhor a compressão, mais profunda a compreensão. Por que essa perspectiva é tão interessante? Porque oferece uma garantia matemática: Desde que seu modelo consiga comprimir os dados suficientemente bem, ele certamente aprenderá algo útil. Uma versão simples em uma frase: Comprimir dados equivale a encontrar padrões; quanto mais padrões você encontrar, mais útil será o que você aprenderá. O GPT prevê a próxima palavra, o que essencialmente comprime o texto, permitindo que ele aprenda a linguagem. https://t.co/digeAJm2D7
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.