Sinceramente, acho que a lealdade deles ao GRPO se deve principalmente ao investimento que fizeram em corrigi-lo e compreendê-lo. Eles estão dispostos a arcar com os custos, como o viés de comprimento, em troca de iterações mais curtas em novos dados. Se você não é o DeepSeek, talvez possa simplesmente ignorar o GRPO.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.