El problema con el aprendizaje supervisado y de refuerzo convencional es que el sistema queda sujeto a actualizaciones de gradiente que no ha seleccionado y que provienen de experimentos que no ha diseñado. Si lo que nos interesa es “ampliar el tiempo de pensamiento”, ¿no debería el agente pensar mucho más en cómo aprende?
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.