Lo siento si es una pregunta tonta, pero ¿los laboratorios también están RL'ing un modelo en resúmenes / compactaciones nativos? Por ejemplo, en lugar de hacer una única pasada de inferencia con muchos tokens de pensamiento antes de la respuesta, ¿realmente hacemos múltiples pasadas de inferencia donde la siguiente puede tener acceso a un resumen generado por la anterior? Entonces, en lugar de "pensar, pensar, pensar → responder", sería algo como "pensar, pensar, pensar → resumir → pensar, pensar, pensar → resumir → pensar, pensar, pensar → responder", ¿y luego hacemos una versión real de eso? Quiero decir que *así* es como los humanos resolvemos problemas, no guardamos todo el razonamiento en nuestras cabezas, tenemos momentos de introspección/ensayos que nos permiten recolectar la basura y construir modelos mentales incrementalmente mejores del problema (es decir, resúmenes) antes de realmente resolverlo.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.