La propiedad de mejora aleatoria del RLVR desaparece con una correcta descontaminación de datos. tiene sentido Gracias @natolambert y al resto del equipo de Olmo.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.