Mais uma prova de que a abordagem de ambiente sintético generalista está funcionando: mesmo com apenas 200 bilhões de tokens, você obtém um modelo altamente versátil (talvez até mais do que o Qwen para SFT).
E o que tornará tudo ainda mais ajustável: o acesso aos dados de treinamento! Isso permite diversas estratégias para aproveitar o conhecimento/portas lógicas preexistentes.