Aliás, só agora reparei que os checkpoints do «Modelo de Recompensa Generativa (GRM) potencializado pelo Ajuste de Crítica Baseado em Princípios (SPCT)» do DeepSeek foram lançados em algum momento. Isso ainda usava Gemmas e V2-lite + V2.5 como professor. Imagine o quão bons seriam seus GRMs se fossem baseados na versão V3.2.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.

