Me encanta este papel. Si bien en apariencia esto parece ser simplemente descomposición de tareas y autoconsistencia utilizando conjuntos, quiero resaltar otras cosas. Este artículo recoge de forma sencilla aquello que la mayoría de nosotros sentimos intuitivamente o intentamos con los LLM, pero que abandonamos tras probarlos.
Construyen un sistema de un millón de pasos que básicamente nunca falla, no creando un modelo “más inteligente”, sino dividiendo la tarea en un millón de partes diminutas y corrigiendo los errores de cada una de ellas minuciosamente. Logran todo esto con tan solo gpt4.1-mini
Me llevo esta idea de este artículo: "si quieres que no haya errores en un millón de pasos, tendrías que dividir la tarea un millón de veces". Nuestros esfuerzos de implementación consistirían en cómo se descompondría y cómo se corregiría un error de forma universal.
Las ideas aquí empleadas se enmarcan en un contexto sencillo. Si bien la garantía de fiabilidad de cero errores en un millón de pasos no es algo trivial, y no apostaría por ella como un 0% de error antes de consultar el artículo. Este artículo es una auténtica joya.
Las ideas centrales que se exploran aquí son las que necesitaríamos resolver para tareas lingüísticas sin detalles de descomposición predefinidos. La calidad de los resultados se vería afectada por la capacidad del modelo para descomponer las tareas por sí mismo y por su capacidad de autocorrección.
Pero si tuviera que depositar mis esperanzas en alguna dirección en el caso de que no haya avances arquitectónicos, sería en esta. Es algo que se ha resuelto a gran escala y para todo tipo de tareas.
También creo que eso integraría la programación dinámica y la búsqueda en árbol en el conjunto de procesos de entrenamiento/inferencia.