X (Twitter)

Andrej Karpathy compartilhou suas reflexões para 2025. Com relação às mudanças nos paradigmas de treinamento, invalidação de benchmarks, Cursor, Claude Code, VibeCoding e LLMGUI 1. RLVR O RLVR representa uma nova fase de treinamento que sucede o pré-treinamento, o ajuste fino supervisionado e o RLHF. Por meio do treinamento em um ambiente verificável, como matemática/código, os LLMs aprendem espontaneamente estratégias de inferência, decompondo problemas e resolvendo-os em múltiplas etapas. Diferentemente do ajuste fino tradicional, o RLVR permite a otimização a longo prazo, proporcionando uma alta relação custo-benefício e consumindo o poder computacional originalmente utilizado para o pré-treinamento. As melhorias de capacidade até 2025 virão principalmente de execuções de RL mais longas. 2. Fantasmas vs. Animais Os objetivos de otimização dos LLMs são drasticamente diferentes dos das redes neurais humanas, resultando em uma inteligência com comportamento de dente de serra — um gênio acadêmico que também pode ser facilmente enganado por alunos do ensino fundamental. A RLVR (Reconhecimento de Voz em Cadeia de Aprendizado) impulsionou o desenvolvimento das capacidades dos LLMs em domínios verificáveis, mas o desempenho geral permanece irregular. Os benchmarks, devido à sua verificabilidade, são facilmente otimizados, tornando o "treinamento no conjunto de teste" uma nova arte. 3. Cursor Cursor revela uma nova forma de aplicação de LLM: orquestrar múltiplas chamadas de LLM para um domínio vertical, realizar engenharia de contexto e fornecer uma GUI dedicada e controles deslizantes autônomos. A controvérsia reside na "espessura" dessa camada de aplicação. Ele argumenta que os laboratórios de LLM cultivam talentos generalistas, enquanto as aplicações de LLM os ativam em equipes especializadas em domínios específicos por meio de dados privados, sensores e feedback. 4. Código Claude Claude Code é a primeira demonstração bem-sucedida de um agente LLM, percorrendo o uso de ferramentas e a inferência. Fundamentalmente, ele roda em um computador local, não na nuvem. A OpenAI implantou seu agente erroneamente em um contêiner na nuvem, mas durante um período de transição com capacidades variáveis, a operação local e a colaboração entre desenvolvedores são mais razoáveis. Claude Code, apresentado em formato de linha de comando (CLI), transforma a IA de um site em um sprite "vivo" no computador, representando um paradigma de interação completamente novo. 5. A programação Vibe revolucionará o software e mudará as descrições de cargos. O Vibe Coding torna a programação acessível a todos, não apenas a profissionais. Ele também permite que profissionais escrevam mais softwares que normalmente não escreveriam, tornando o código gratuito, temporário e descartável. 6. Nano banana / GUI LLM Nano banana antecipa o protótipo de uma GUI para LLM (Learning Learning and Management). Assim como os computadores evoluíram da linha de comando para a GUI, o LLM também deve evoluir do bate-papo por texto simples para a saída visual. As pessoas não gostam de ler textos; é lento e trabalhoso. Nano banana demonstra as capacidades combinadas de geração de texto, geração de imagens e fusão de conhecimento do mundo.

Thread de 歸藏(guizang.ai) (@op7418)

Informações do autor

Conteúdo da thread