RT @shao__meng: Retrospectiva de final de ano do LLM de 2025 de Andrej Karpathy: 6 "Mudanças de Paradigma" 1. RLVR: Até 2025, o aprendizado por reforço passará da recompensa verificável (RLVR) para o novo estágio padrão de treinamento de modelos de aprendizado por reforço (LLM). Ao otimizar as recompensas ao longo de um longo período em domínios objetivos, como matemática/código, os modelos exibirão naturalmente um "raciocínio" semelhante ao humano.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.