Olvidé el más importante: antes de DS-Math, solo Frontier podía hacer RL, porque PPO era un fastidio y DPO no era lo suficientemente eficiente. Irónicamente, GRPO es a la vez su regalo más mundano y de mayor impacto. Además: antes de R1, solo Frontier hacía un buen RL basado en resultados
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
