Então DeepSeek-Math-V2. O subtítulo poderia ser: "como treinar melhores verificadores?" e a maior parte da resposta é simplesmente... melhor trabalho com dados e pipelines de síntese (mesmo que todos os modelos sejam treinados com RL). O DeepSeek se distancia ainda mais das promessas iniciais de autoverificação espontânea do R0, simplesmente porque a abordagem não é escalável: o raciocínio tortuoso que finalmente produz respostas corretas ainda é muito frágil e propenso a falhas. O projeto começa com anotações humanas, porém feitas por especialistas de alto nível, representando uma mudança mais ampla no setor, onde buscamos ampliar/automatizar o melhor processo de qualidade de dados possível. Nesse processo, também aproveitamos algo que observamos ao construir o pipeline matemático para o SYNTH: humanos (e modelos devidamente guiados) conseguem identificar instâncias de raciocínio complexo sem qualquer referência às respostas finais. O artigo também menciona uma técnica que provavelmente se tornará muito utilizada em pipelines sintéticos: "meta-verificadores", que basicamente avaliam o próprio processo de avaliação. Isso porque até mesmo o verificador pode ter sua recompensa manipulada: "ao avaliar provas falhas (onde 𝑠𝑖 < 1) durante o treinamento, o verificador pode receber a recompensa total prevendo as pontuações corretas enquanto alucina problemas inexistentes". As anotações humanas são feitas inicialmente em rascunhos sintéticos, que por sua vez servem para construir avaliadores que, recursivamente, produzem provas melhores e caminhos de resolução cada vez mais eficientes. No geral, o processo cria um ciclo de feedback positivo: "O verificador e o gerador de provas criam um ciclo sinérgico: o verificador aprimora o gerador e, à medida que o gerador aprimora, produz novas provas que desafiam as capacidades atuais do verificador." Todo o treinamento de verificadores/metaverificadores/modelo final é feito com RL (o que faz sentido para modelos muito grandes, já que a SFT/treinamento intermediário pode se tornar bastante destrutiva). Mesmo assim, a crescente complexidade do RLVR, que não pode ser limitada a uma simples "verificação" formal, exige o desenvolvimento de pipelines sintéticos integrados e cada vez mais autossuficientes. Mais uma vez, os pesquisadores de matemática experimental levam a pesquisa do LLM à fronteira real do conhecimento, resultando em soluções criativas e elegantes que provavelmente irão impactar todo o campo nos próximos meses.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.