Sinceramente, creo que son tan leales a GRPO en gran parte *porque* han invertido mucho en parchearlo y comprenderlo. Están dispuestos a pagar los costos de, por ejemplo, el sesgo de longitud para iteraciones más cortas con datos nuevos. Si no usas DeepSeek, quizás puedas simplemente superar a GRPO.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.