O Sina Weibo disponibilizou recentemente em código aberto um "pequeno modelo" de 1,5 bilhão de parâmetros chamado "VibeThinker-1.5B", com um custo de treinamento de apenas US$ 7.800. Ele alcançou ou até mesmo superou o nível de grandes modelos em tarefas complexas de raciocínio, como matemática e programação! Contexto e motivação: Por que os modelos de pequeno porte podem "voltar à moda"? O modelo o1 da OpenAI inaugurou a era dos "Modelos de Raciocínio em Grande Escala" (LRM), alcançando níveis de conhecimento quase humanos em áreas como demonstração de teoremas matemáticos, diagnóstico clínico e competições de programação por meio de aprendizado por reforço e Cadeia Longa de Raciocínio (LCOT). Projetos subsequentes de código aberto, como o DeepSeek R1 (671 bilhões de bits) e o Kimi K2 (mais de 1 trilhão de bits), reforçaram ainda mais a "lei da escala": quanto mais parâmetros, mais forte o raciocínio. Modelos pequenos são considerados inerentemente fracos e incapazes de lidar com problemas altamente complexos. Os autores do artigo questionaram essa visão: seria possível desbloquear o potencial oculto do raciocínio começando com modelos pequenos e empregando estratégias de treinamento inteligentes? A resposta é sim. O VibeThinker-1.5B, baseado no modelo Qwen2.5-Math-1.5B, passou por otimização pós-treinamento, resultando em melhorias significativas em testes de benchmark — saltando de 6,7 pontos no teste de matemática AIME24 para 80,3 pontos e de 0 pontos no benchmark de programação LiveCodeBench V6 para 51,1 pontos. Ainda mais notável, ele superou ligeiramente o DeepSeek R1 em diversos desafios matemáticos, apesar do DeepSeek ter mais de 400 vezes mais parâmetros. Isso demonstra que o gargalo para a capacidade de raciocínio não reside no "tamanho", mas na inovação dos paradigmas de treinamento. Inovação central: Princípio de conversão de espectro em sinal Este artigo propõe o "Princípio do Espectro-Sinal" (SSP), uma estrutura que redefine a colaboração entre o Ajuste Fino Supervisionado (SFT) e o Aprendizado por Reforço (RL). Os métodos tradicionais consideram o SFT como a etapa para "localizar com precisão a resposta ótima", enquanto o RL a refina ainda mais. No entanto, os autores argumentam que isso pode aprisionar o modelo em um "ótimo local" em um único caminho, limitando o espaço de exploração subsequente. O SSP desacopla as duas etapas em funções complementares: • Estágio Espectral (SFT): Explorando a Diversidade A SFT não busca mais a precisão em uma única geração (Pass@1), mas otimiza a taxa de sucesso de múltiplas amostragens (Pass@K), gerando um "espectro rico" — ou seja, múltiplas soluções potencialmente corretas. Isso evita que o modelo se prenda a um padrão restrito e melhora a robustez e a criatividade na resolução de problemas. A implementação adota uma abordagem de "destilação exploratória da diversidade em dois estágios": 1. Detecção de Diversidade Sensível ao Domínio: O domínio matemático é dividido em subdomínios (como álgebra e geometria), e um conjunto de sondas é gerado para cada subdomínio usando um poderoso LLM para selecionar o melhor "modelo especialista" no Pass@K. 2. Fusão de Modelos Especialistas: Os modelos especialistas são combinados por meio de médias ponderadas (pesos uniformes) para formar um modelo SFT unificado. Isso equilibra precisão e diversidade, abrindo caminho para o aprendizado por reforço. • Fase de Sinalização (RL): Amplificando o Caminho Correto O aprendizado por reforço (RL) seleciona e fortalece a melhor trajetória de inferência a partir do "espectro" da Teoria da Função de Suporte (SFT). Os autores introduzem a "Otimização de Política Guiada por Máxima Entropia" (MGPO), uma extensão da Otimização de Política Relativa em Grupo (GRPO). A GRPO calcula a vantagem relativa amostrando múltiplos conjuntos de respostas, evitando a complexidade da função de valor externa. A MGPO incorpora ainda o princípio da máxima entropia: prioriza amostras de treinamento com alta incerteza (acurácia próxima a 50%, ou seja, o ponto de máxima entropia da distribuição binária) e utiliza a regularização de viés de entropia para ponderar a função de vantagem. Isso permite que o modelo se concentre eficientemente em problemas de "alto valor", evitando o desperdício de computação em tarefas simples já dominadas. O aprendizado por reforço (RL) consiste em duas subetapas: primeiro, o raciocínio matemático (o contexto é expandido de 16K para 32K) e, em seguida, a geração de codificação, sendo a função de recompensa a correção binária. Além disso, o artigo enfatiza a higienização dos dados: a correspondência semântica de 10-gramas é usada para remover a sobreposição entre os conjuntos de treinamento e teste, garantindo a autenticidade dos resultados. Os dados de treinamento combinam conjuntos de dados de código aberto e dados sintéticos, abrangendo as áreas de matemática e programação. Experimentos e Resultados: A "Grande Lógica" por Trás de um Modelo Pequeno O VibeThinker-1.5B foi avaliado em diversos benchmarks, incluindo matemática (MATH-500, AIME24/25, HMMT25), programação (LiveCodeBench V5/V6) e conhecimento (GPQA-Diamond). As avaliações foram conduzidas utilizando um backend vLLM, com amostragem múltipla Pass@1 e uma temperatura de 0,6 (1,0 para matemática). • Comparado a modelos menores: o VibeThinker se destaca na categoria abaixo de 3 bilhões de usuários, atingindo uma pontuação AIME25 de 74,4 (Qwen3-1.7B apenas 36,8), uma pontuação HMMT25 de 50,4 (SmolLM-3B apenas 26,0) e uma pontuação de codificação V6 de 51,1 (modelo base 0,0). • Comparado a grandes modelos de inferência: Matematicamente, supera ligeiramente o DeepSeek R1 (AIME24: 80,3 vs. 79,8; AIME25: 74,4 vs. 70,0; HMMT25: 50,4 vs. 41,7) e está em pé de igualdade com o MiniMax-M1-456B. Seu desempenho de codificação é ligeiramente inferior ao do Magistral Medium (55,9 vs. 59,4). • Comparado aos melhores modelos não racionais: matematicamente superior ao GPT-4.1 (AIME24: 80,3 vs. 46,5) e ao Kimi K2 (49,5), e melhor em codificação do que o Claude Opus 4 (51,1 vs. 47,4). No entanto, ainda fica atrás no teste de conhecimento GPQA (46,7 vs. 70-82), sugerindo que o modelo pequeno precisa de otimização adicional em conhecimento de domínio amplo. Esses resultados confirmam a eficácia do SSP: abordagens baseadas na diversidade permitem que modelos pequenos "alcancem ótimos resultados com poucos recursos" em tarefas que exigem grande capacidade de inferência. Discussão e impacto: remodelando o cenário da IA O sucesso do VibeThinker decorre do design do algoritmo, e não do empilhamento de parâmetros, reduzindo os custos de inferência para 1/30 a 1/60 dos modelos maiores e facilitando a implantação na borda (custos de inferência 20 a 70 vezes menores). Isso expõe as limitações da lei da escala: o potencial de modelos pequenos é subestimado, especialmente no domínio matemático/de programação. No entanto, a lacuna nos benchmarks de conhecimento indica a necessidade de esforços futuros para fortalecer a infusão de conhecimento generalizado. Modelo de código aberto e relatório técnico:
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
