¿Cómo explicamos la extrema irregularidad inducida por RLVR? ¿Cómo es posible que tengamos modelos que sean de primera categoría en competiciones de programación, pero que al mismo tiempo presenten errores extremadamente previsibles y deuda técnica a lo largo de todo el código fuente?
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
