Sem querer ser chato, mas se você está treinando com exemplos de instruções de raciocínio... como pode chamar isso de RL-Zero? Zero não deveria significar... do nada?
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
