Portanto, um modelo de nível V3.2 em termos de benchmarks. Metade dos parâmetros e talvez o dobro de tokens efetivos (23T@Muon). Laboratórios sérios estão todos se adaptando a essa metodologia de aprendizado por reforço massivo. As bases da próxima geração serão onde veremos diferenças interessantes novamente.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.