“A propriedade de melhoria aleatória do RLVR desaparece com a descontaminação adequada dos dados” Faz sentido Obrigado @natolambert e toda a equipe Olmo.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.