Aliás, Rednote. Mas, assim como no artigo da Nvidia, não se trata de "pré-treinamento do zero", mas sim de mais uma etapa intermediária de treinamento. Qwen, claro. Acho que isso vai se tornar comum, basicamente reformula as práticas confusas atuais em torno de dados sintéticos + RLVR. O fato sobre o comprimento da resposta é 👀
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.

