Imagínate aprender a jugar un videojuego fijándote únicamente en la puntuación final. Eso es aprendizaje por refuerzo. Ahora imagina entrenar un modelo de razonamiento complejo de la misma manera: es un derroche de recursos. Pero es precisamente en eso en lo que los laboratorios de vanguardia están invirtiendo miles de millones.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.