Notícia urgente: lançamos um conjunto de dados generalista totalmente sintético para pré-treinamento, o SYNTH, e dois novos modelos de raciocínio de última geração treinados exclusivamente nele. Apesar de ter visto apenas 200 bilhões de tokens, o Baguettotron é atualmente o melhor da categoria em seu tamanho.
SYNTH é uma abordagem radicalmente diferente do modelo clássico de pré-treinamento: e se treinássemos o raciocínio e nos concentrássemos na assimilação de conhecimento e habilidades realmente importantes? Em sua essência, trata-se de umahuggingface.co/datasets/PleIA…gos "vitais" da Wikipédia. https://t.co/qrBybjF78m
SYNTH é uma coleção de diversos ambientes sintéticos: os dados não são gerados por meio de simples instruções, mas sim pela integração de modelos menores e ajustados em fluxos de trabalho com inicialização, restrições e verificações formais.
Como o SYNTH foi projetado para treinar capacidades de raciocínio, obtemos sinais de raciocínio reais muito cedo no treinamento. Para o Baguettotron, descobrimos que o MMLU começa a se tornar não aleatório após menos de 10 bilhões de tokens e rapidamente atinge um desempenho próximo ao estado da arte.
Os ambientes sintéticos permitiram uma série de experimentos controlados que nos levaram a priorizar o design de profundidade extrema. Selecionamos uma arquitetura de 80 camadas para o Baguettotron, com melhorias gerais na memorização do rahuggingface.co/PleIAs/Baguett…//t.co/rdn902oTGN
Juntamente com o Baguettotron, lançamos o menor modelo de linguagem viável até o momento. O Monad, um transformer de 56M, foi treinado na parte em inglês do SYNTH com desempenho não aleatório no MMLU. Projetar o Monad foi um desafio de engenharia que exhuggingface.co/PleIAs/Monadúsculo personalizado. https://t.co/hC8SLV1SLc
Ambos os modelos são treinados nativamente em um estilo de instruções semelhante ao Qwen, com registros de pensamento. Desenvolvemos um estilo de raciocínio completamente novo, otimizado para modelos pequenos, com frases condensadas, símbolos de rascunho e entropia simulada (inspirado no projeto Entropix).
Com este lançamento, pretendemos apoiar o ecossistema emergente para pesquisa de pré-treinamento (NanoGPT, NanoChat), a explicabilidade (você pode literalmente olhar para o Monad sob um microscópio) e a orquestração de ferramentas em torno de modelos de vanguarda.
Acreditamos que os dados sintéticos são tanto um recurso para construir pequenos modelos especializados quanto um processo geral de aumento/enriquecimento para a camada de dados em aplicações de modelagem de aprendizagem de línguas (LLM). Além da pesquisa, isso será um fator importante em nossa nova fase de desenvolvimento de produtos.
Antes do relatório completo, um anúncio detalhado no blog com alguns resultados científicos/bastidores sobre os processopleias.fr/blog/blogsynth….co/rixJOesC08





