X (Twitter)

Acredito que muitas pessoas traduziram ou resumiram o relatório da AK para 2025. Reescrevi e formatei novamente para meu próprio aprendizado; recomendo a leitura do texto original. --- Andrej Karpathy escreveu uma retrospectiva do LLM para 2025, listando seis coisas que ele acredita que "mudarão o cenário". 1. O aprendizado por reforço encontrou novas aplicações. Anteriormente, o treinamento de modelos de grande porte envolvia três etapas: ① Pré-treinamento (conjunto GPT-2/3 de 2020) ② Monitorar e ajustar (InstructGPT em 2022) ④ Aprendizagem por Reforço com Feedback Humano (RLHF, também em 2022). Essa fórmula se manteve estável por vários anos. Em 2025, foi adicionada uma quarta etapa: RLVR (Aprendizagem por Reforço com Recompensa Verificável). Quando um modelo é incumbido de resolver problemas matemáticos ou escrever código — questões com respostas padrão — ele desenvolverá suas próprias estratégias de raciocínio. Eles dividem os problemas em etapas menores, tentam e falham repetidamente, até encontrarem um método que lhes seja adequado. Essas estratégias são difíceis de ensinar usando os métodos de treinamento anteriores, porque você não sabe qual caminho de inferência é o ideal para o modelo; você só pode deixar que ele o descubra por si só através da otimização da recompensa. A principal mudança reside na alocação de recursos computacionais. Os métodos anteriores de ajuste fino supervisionado e RLHF eram ambos "camadas finas" com baixo custo computacional. No entanto, o RLVR pode ser treinado por um longo período porque a função de recompensa é objetiva e não pode ser explorada. Como resultado, o poder computacional originalmente destinado ao pré-treinamento foi consumido pelo RLVR. Portanto, em 2025, o tamanho do modelo não mudou muito, mas o tempo de aprendizado por reforço foi significativamente estendido. Além disso, há um novo botão de controle: o valor do cálculo durante o teste. Você pode aprimorar as capacidades do modelo fazendo com que ele gere processos de raciocínio mais longos e aumentando o "tempo de reflexão". O modelo o1 da OpenAI (previsto para o final de 2024) é o primeiro modelo RLVR. Mas o terceiro trimestre (início de 2025) é o verdadeiro ponto de virada, e você pode sentir a diferença diretamente. 2. Estamos invocando fantasmas, não criando animais. Em 2025, Karpathy disse que começou a entender a "forma" da inteligência de modelos em larga escala de forma mais intuitiva. Ele usou uma analogia muito interessante: não somos animais em evolução, somos fantasmas invocados. Em modelos de grande porte, tudo é diferente: arquitetura da rede neural, dados de treinamento, algoritmos de treinamento e, principalmente, a pressão de otimização. A inteligência humana é otimizada para a sobrevivência na selva. No entanto, a inteligência de modelos de grande porte é otimizada para imitar o texto humano, obter recompensas em problemas matemáticos e ganhar aprovação humana na área de aprendizagem baseada em leis (LLM). Portanto, suas habilidades são particularmente desiguais, como dentes de serra. Em domínios verificáveis (como matemática e código), as capacidades de um modelo podem "explodir" porque ele pode ser treinado usando RLVR. No entanto, também pode ser um aluno do ensino fundamental confuso, cujos dados podem ser roubados a qualquer momento por um ataque de jailbreak. Karpathy afirma que a inteligência humana também é irregular, apenas com um formato diferente. Ele perdeu a fé nos critérios de avaliação. A questão central é que os testes de benchmark são quase sempre realizados em ambientes verificáveis, tornando-se imediatamente alvos de RLVR (Regressão de Valor em Tempo Real) e geração de dados sintéticos. A equipe do laboratório constrói o ambiente de treinamento próximo ao espaço de incorporação ocupado pelos benchmarks, criando bordas irregulares para cobri-los. O treinamento em conjuntos de teste se tornou uma nova forma de arte. (Ironia?) Ele também fez uma pergunta muito pertinente: Como seria se você obtivesse uma pontuação alta em todos os testes de referência, mas ainda assim não conseguisse atingir a AGI? 3. O cursor permite que todos vejam a camada de aplicação. O Cursor se tornou muito popular este ano, mas Karpathy acredita que o mais importante é que ele mostrou às pessoas um novo nível de "aplicações LLM". As pessoas começaram a dizer "Cursor para X". Aplicações como o Cursors fazem mais do que apenas ajustar um modelo grande uma única vez: ① Realizar engenharia de contexto. ② Encadear múltiplas chamadas de modelos grandes em DAGs (Grafos Acíclicos Direcionados) cada vez mais complexos em segundo plano, equilibrando desempenho e custo. ③ Fornecer aos usuários uma interface específica da aplicação. ④ Fornecer um "controle deslizante autorregulável" que permita controlar seu grau de liberdade. Em 2025, muito se tem discutido sobre quão "espessa" será essa camada de aplicação. Será que os grandes laboratórios de modelos vão absorver todas as aplicações? Ou será que as aplicações do LLM (Licensed Liability Masters) terão seu próprio espaço para sobreviver? A opinião de Karpathy é: Grandes laboratórios de modelos podem produzir "bons estudantes universitários". Mas os programas de mestrado em Direito (LLM) organizam esses estudantes universitários, transformando-os em equipes especializadas em áreas específicas, fornecendo dados privados, sensores, atuadores e circuitos de feedback. 4. Claude Code traz a IA para o seu computador. Claude Code é o primeiro "agente inteligente" convincente em 2025. Utiliza ferramentas e raciocínio de forma cíclica para resolver problemas complexos. Mas, mais importante ainda, ele é executado no seu computador, usando seu ambiente, dados e contexto privados. Karpathy acredita que a OpenAI seguiu na direção errada. Eles concentraram seus esforços no Codex e em agentes em contêineres na nuvem orquestrados pelo ChatGPT, em vez de no localhost. Embora enxames inteligentes baseados em nuvem pareçam a "forma definitiva de Inteligência Artificial Geral", vivemos atualmente em um mundo intermediário, onde as capacidades são desenvolvidas de forma desigual e o progresso é lento. Nesta fase, é mais razoável que o agente inteligente trabalhe diretamente ao lado do desenvolvedor no computador. Claude Code transformou isso em uma ferramenta de linha de comando simples e elegante que mudou a forma como a IA funciona. Não se trata mais apenas de um site que você visita (como o Google), mas de um pequeno espírito ou fantasma que "vive" no seu computador. Este é um novo paradigma para interagir com a IA. 5. A Vibe Coding torna a programação acessível a todos. Em 2025, a IA terá ultrapassado um limiar de capacidade. Você pode criar todo tipo de programa complexo descrevendo-o em inglês, sem nem se preocupar com a aparência do código. Karpathy mencionou casualmente o "Vibe Coding" em um tweet, sem jamais imaginar que se espalharia tanto. Com o Vibe Coding, a programação deixa de ser domínio exclusivo de profissionais; agora, qualquer pessoa pode programá-la. Mas, mais importante ainda, permite que os profissionais escrevam mais softwares que normalmente não escreveriam. Karpathy deu o seu próprio exemplo. No projeto nanochat, ele escreveu um tokenizador BPE eficiente em Rust, mas não entendia nada de Rust nesse nível e dependia inteiramente do Vibe Coding. Ele também fez muitos projetos de demonstração rápidos (menugen, llm-council, reader3, HN time capsule), e até mesmo alguns programas isolados, apenas para encontrar um bug. O código tornou-se repentinamente gratuito, efêmero, maleável e descartável. A Vibe Coding vai mudar a aparência do software e a definição de trabalho. Karpathy também mencionou seu artigo anterior, "Empoderando pessoas: como os LLMs estão transformando a difusão da tecnologia". Diferentemente de qualquer tecnologia anterior, os benefícios que as pessoas comuns obtêm com modelos em larga escala superam em muito os benefícios para profissionais, empresas e governos. 6. Nano Banana é uma interface gráfica para modelos grandes. O Gemini Nano Banana do Google é um dos modelos mais surpreendentes de 2025. Karpathy acredita que os modelos em larga escala são o próximo grande paradigma da computação, assim como os computadores nas décadas de 1970 e 80. Portanto, observamos inovações semelhantes por razões semelhantes. Haverá um equivalente para computação individual, um equivalente para microcontroladores (núcleos cognitivos) e um equivalente para a Internet (rede de agentes inteligentes). Na interface interativa, "conversar" com o modelo gigante é como digitar comandos em um console na década de 1980. O texto é o formato bruto que os computadores e os grandes modelos preferem, mas não o que os humanos preferem. As pessoas, na verdade, não gostam de ler; é muito lento e cansativo. As pessoas preferem informações visuais e espaciais, e foi por isso que os computadores tradicionais inventaram a interface gráfica do usuário (GUI). Os modelos de grande porte também devem se comunicar nos formatos que preferimos: imagens, infográficos, slides, quadros brancos, animações, vídeos e aplicativos da web. As primeiras versões utilizavam emojis e Markdown, que eram formas de "decorar" o texto, tornando a informação mais fácil de assimilar com títulos, negrito, itálico, listas e tabelas. Mas quem realmente vai construir a interface gráfica para um modelo tão grande? Nano Banana é uma dica inicial. É importante destacar que ele faz mais do que apenas gerar imagens; ele integra a geração de texto, a geração de imagens e o conhecimento do mundo aos pesos do modelo, formando uma capacidade conjunta. Palavras finais Karpathy disse que o grande modelo de 2025 era ao mesmo tempo muito mais inteligente e muito mais estúpido do que ele esperava. Mas elas são extremamente úteis, e a indústria ainda não explorou nem 10% do seu potencial. Há muitas ideias para experimentar; este campo ainda está muito aberto conceitualmente. Ele disse algo no podcast Dwarkesh este ano que achei muito interessante: ele acredita em duas coisas aparentemente contraditórias ao mesmo tempo — que veremos um progresso rápido e contínuo, mas que ainda há muito trabalho a ser feito. Segure firme.

Thread de 向阳乔木 (@vista8)

Informações do autor

Conteúdo da thread