Gosto de pensar que uma das motivações de todos esses artigos é superar os métodos internos do DeepSeek de forma tão contundente que o faça abandoná-los. Mas a Baleia está secretamente muito orgulhosa. Talvez até demais. Suspeito que eles prefeririam explorar ao máximo o GRPO a admitir uma derrota. No fim, todos saem ganhando.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
