Jeff Dean fez uma apresentação em Stanford na semana passada, resumindo os pontos principais com o auxílio de inteligência artificial e escrevendo o artigo. O vídeo está na seção de comentários. Como a IA se tornou tão poderosa de repente? Jeff Dean, chefe de IA do Google, compartilhou essa história com base em sua própria experiência. Ele disse: "A IA que vemos hoje é o produto da acumulação de tecnologias ao longo dos últimos quinze anos." Não foi apenas uma descoberta inovadora. Foi uma série de descobertas inovadoras. Cada avanço representa um grande salto em frente para a IA. Em seguida, deixe-me explicar quais são esses avanços. Desde os primórdios, quando "o modelo aprendeu a ser um gato", até os dias atuais, quando "a inteligência artificial ganha a medalha de ouro na Olimpíada Internacional de Matemática". Em 2012, o modelo aprendeu a reconhecer gatos por conta própria. 2012. Projeto Google Brain. Jeff Dean e sua equipe estão conduzindo um experimento. Eles queriam saber: a IA pode aprender a reconhecer coisas sozinha? Não rotule, não diga "isto é um gato" ou "isto é um cachorro". Apenas mostre várias figuras e deixe que o animal as observe sozinho. Eles usaram 10 milhões de frames de vídeos do YouTube, selecionados aleatoriamente. Não havia rótulos. Em seguida, eles treinaram uma rede neural. A rede era enorme, de 50 a 100 vezes maior do que antes. Após o treinamento, eles examinaram os neurônios na camada superior da rede. A que eles eram sensíveis? O resultado chocou a todos. Existe um neurônio particularmente sensível a "gatos". Se você mostrar a ele a foto de um gato, esse neurônio será ativado. Se você mostrar a foto de um cachorro, ele não será ativado. O modelo aprendeu sozinho o que é um "gato". Ninguém lhe ensinou. Aprendeu com 10 milhões de imagens. Isso é aprendizado não supervisionado. Jeff Dean disse: "Que legal!" Isso prova que a IA consegue descobrir conceitos por conta própria. Ela não precisa que humanos lhe digam "o que é isso". Basta que ela analise dados suficientes. Este é o ponto de partida para a capacidade de aprendizagem da IA. Conversamos sobre como a IA aprende a "enxergar". Agora, vamos falar sobre como a IA aprende a "entender a linguagem". Tecnologia principal: Word2Vec. Anteriormente, os computadores processavam as linguagens tratando cada palavra como um símbolo isolado. "Gato" era "gato". "Cachorro" era "cachorro". Não havia relação entre elas. Mas o Word2Vec é diferente. Ele transforma cada palavra em um vetor de alta dimensão. O que isso significa? Significa que cada palavra é uma sequência de números. Por exemplo, "King" pode ser (0.5, 0.8, 0.3, ...). "Queen" pode ser (0.5, 0.2, 0.3, ...). Mas o mais surpreendente é que as direções desses vetores têm significado. Se você fizer o cálculo: "Rei" - "Homem" + "Mulher", obterá um novo vetor. A palavra mais próxima desse vetor é "Rainha". Essa é a mágica do Word2Vec. Não se trata apenas de converter palavras em números. Trata-se de transformar relações semânticas em relações matemáticas. A relação entre "rei" e "rainha" é como a relação entre "homem" e "mulher". Essa relação está codificada na direção do vetor. "Isso permite que as máquinas 'entendam' a linguagem pela primeira vez", disse Jeff Dean. Não compreende de verdade. Mas consegue calcular a semântica. Discutimos como a IA compreende a linguagem. Agora, vamos falar sobre uma questão mais prática: poder computacional. Por volta de 2015, o Google queria lançar um modelo aprimorado de reconhecimento de fala. Funcionou muito bem e os usuários gostaram. Mas existe um problema. Jeff Dean fez os cálculos: se o Google fosse usar esse modelo, precisaria dobrar o número de computadores. Você ouviu direito. Dobre. O que isso significa? O Google já possuía centenas de milhares de servidores na época. Dobrar esse número significava comprar centenas de milhares a mais. Isso é simplesmente irrealista. Portanto, eles tiveram que encontrar uma maneira. A resposta é: hardware dedicado. Eles descobriram que as redes neurais possuem uma característica única: são muito tolerantes a cálculos de baixa precisão. Além disso, seu núcleo é a multiplicação de matrizes densas. Essas duas características permitem que eles projetem chips especializados. Não utiliza uma CPU de uso geral nem uma GPU. Em vez disso, usa um chip projetado especificamente para redes neurais. Esta é a TPU: Unidade de Processamento de Tensores. Em 2015, foi lançado o TPUv1. Era de 15 a 30 vezes mais rápido que as CPUs e GPUs da época, e de 30 a 80 vezes mais eficiente em termos de energia. Isso resolveu a crise de poder computacional. Posteriormente, eles continuaram a iterar. O sistema mais recente é 3600 vezes mais rápido que o TPUv2. Jeff Dean disse: "Sem hardware dedicado, não haveria IA como a conhecemos hoje." O poder computacional é a infraestrutura da IA. Transformers mudou tudo Já falamos sobre hardware. Agora, vamos falar sobre arquitetura. Em 2017, um colega do Google propôs uma nova arquitetura: o Transformer. Isso mudou tudo. Antes do Transformer, os modelos para processamento de linguagem eram todos modelos de loop. Qual o significado? Ou seja, o modelo precisa processar cada palavra uma por uma. Além disso, ele comprime todas as informações em um único vetor. Isso é muito ineficiente. Transformers não faz isso. Sua ideia central é: Não comprima; preserve todos os estados intermediários. Em seguida, deixe o modelo "lidar com" qualquer estado quando necessário. Isso se chama autoatenção. E qual foi o resultado? Possui uma taxa de precisão mais alta. A carga computacional é reduzida de 10 a 100 vezes. Os parâmetros do modelo são reduzidos em 10 vezes. Isso é incrível. Mais rápido, mais preciso, menor. Além disso, o Transformer consegue lidar com muito mais do que apenas idiomas. Ele também pode processar imagens. Este é o Vision Transformer (ViT). Jeff Dean disse: "O Transformer é a base da IA moderna." O ChatGPT utiliza o Transformer. Gemini usa Transformer. Todos os modelos grandes que você vê são Transformers. Três técnicas para tornar os modelos mais inteligentes Conversamos sobre Transformers. Agora, vamos falar sobre treinamento. Como podemos tornar os modelos mais inteligentes? Existem três técnicas principais. O primeiro: modelo esparso. Em uma rede neural normal, o modelo inteiro é ativado para cada previsão. Isso é um desperdício. Os modelos esparsos são diferentes. Eles ativam apenas de 1% a 5% dos parâmetros. O restante fica "inativo". Isso reduziu os custos de treinamento em 8 vezes. Jeff Dean disse: "Gêmeos é um modelo esparso." A segunda: destilação. Isso envolve a transferência de conhecimento de um modelo grande para um modelo menor. Como funciona essa transferência? O modelo grande não diz simplesmente ao modelo pequeno o que está "certo" ou "errado". Ele fornece uma distribuição de probabilidade. Esse sinal é muito rico. O resultado? O modelo pequeno alcançou o mesmo efeito que o modelo grande usando apenas 3% dos dados. O terceiro: a cadeia de pensamento. Você fornece um exemplo ao modelo para "demonstrar seu processo de funcionamento". Por exemplo, ao resolver um problema de matemática, em vez de fornecer a resposta diretamente, você descreve o raciocínio passo a passo. Isso melhora significativamente a precisão do modelo em tarefas de raciocínio complexas. Essas três técnicas tornam o modelo mais eficiente e inteligente. Já discutimos os fundamentos tecnológicos da IA. Agora, vamos falar sobre os resultados. Em 2022, os pesquisadores do Google estavam entusiasmados com algo. O modelo deles finalmente consegue resolver problemas de matemática do ensino fundamental. Precisão: 15%. "João tinha cinco coelhos e depois ganhou mais dois. Quantos coelhos ele tem agora?" A inteligência artificial consegue responder a esse tipo de pergunta corretamente em cerca de 15% dos casos. Eles sentiram que isso representava um avanço. 2024. Dois anos depois. A mesma equipe lançou o Gemini 2.5 Pro, que participou da Olimpíada Internacional de Matemática. Seis perguntas. Respondeu a cinco corretamente. Isso é nível medalha de ouro. De resolver 15% dos problemas de matemática do ensino fundamental a ganhar uma medalha de ouro na Olimpíada Internacional de Matemática. Dois anos. Jeff Dean disse: "Essa é a velocidade com que a IA está progredindo." Não é linear. Não é uma melhoria gradual. É exponencial. Em 2022, a IA ainda estava aprendendo a fazer adição. Em 2024, a IA já estará resolvendo problemas de matemática das Olimpíadas. E quanto a 2026? Não sabemos. Mas se continuar nesse ritmo, poderá superar as nossas expectativas. Essa é a IA que vemos hoje. Ela não se fortaleceu gradualmente; ela se fortaleceu repentinamente. De "O modelo aprendeu a ser um gato" em 2012 a "A IA ganha a medalha de ouro na Olimpíada Internacional de Matemática" em 2024. Doze anos. A inteligência artificial passou de não saber quase nada a saber quase tudo. E agora, qual é o próximo passo? Jeff Dean afirmou: A IA terá um enorme impacto na saúde, na educação e na pesquisa científica. Até mesmo alguém que não sabe programar pode ter um site criado por inteligência artificial. Trata-se de tornar o conhecimento profissional acessível a mais pessoas. No entanto, também devemos encarar os riscos potenciais. Por exemplo, a disseminação de informações falsas. A IA pode gerar conteúdo incrivelmente realista. Se usada indevidamente, as consequências podem ser graves. Jeff Dean afirmou: "Não podemos ignorar os potenciais impactos negativos. Nosso objetivo é maximizar os benefícios da IA e minimizar suas possíveis desvantagens." Esta é a história da IA. Da retropropagação ao Transformer e ao Gemini, tecnologia, hardware e algoritmos foram combinados nos últimos quinze anos. A inteligência artificial que vemos hoje é produto de tudo isso. E essa história continua.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.