Rednote, por cierto. Pero, al igual que el artículo de Nvidia, no se trata de un "preentrenamiento desde cero", sino de otra etapa intermedia de entrenamiento. Qwen, por supuesto. Creo que esto se generalizará; básicamente, refactoriza las prácticas desordenadas actuales en torno a los datos sintéticos y el RLVR. El hecho de que la longitud de respuesta sea...
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.

