Esqueci o mais importante: antes do DS-Math, apenas o Frontier conseguia fazer RL, porque o PPO era muito complicado e o DPO não tinha desempenho suficiente. Ironicamente, o GRPO é, ao mesmo tempo, o presente mais banal e mais impactante que eles têm. Além disso: antes do R1, apenas a Frontier realizava um bom aprendizado por reforço baseado em resultados.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
