Resolver de memoria vs. resolver desde cero: o la inutilidad de aplicar la "lente de complejidad" a los LLM #SundayHarangue #NeurIPS2025 Edition Sigo desconcertado por la insistencia en ver el desempeño de la tarea LLM en términos de la complejidad computacional de la tarea subyacente (ver https://t.co/4X1yQFY3KH ). Esto a pesar de la abundante evidencia anecdótica que ya demuestra que la Inteligencia Dentada de los LLM no tiene una conexión directa con la complejidad de las tareas. Los LLM pueden ser competitivos en los problemas de la Olimpiada Internacional de Matemáticas, sin dejar de caer en trampas infantiles del tipo "Amazon me envió un zapato izquierdo en lugar del derecho, y viceversa" (¡deberían seguir a @conitzer para una lista interminable de estas trampas para los LLM de SOTA!). La complejidad computacional suele referirse a la resolución algorítmica de una tarea desde cero. En cambio, en los LLM, todo el preentrenamiento, el posentrenamiento y la inferencia exigen una resolución de memoria. Por supuesto, esto no significa que los LLM simplemente extraigan la solución a una tarea específica de una amplia biblioteca de soluciones previas. Más bien, intentan abordar la tarea no resolviéndola algorítmicamente desde cero, sino mediante un proceso de ensayo y error que consiste en recopilar el conocimiento adquirido durante la formación previa y posterior sobre el conocimiento humano. Desde esta perspectiva, los "tokens intermedios" producidos por los modelos de razonamiento deben interpretarse no como rastros de algún algoritmo creado desde cero, sino quizás como una huella de los intentos del modelo de componer el conocimiento previo en su memoria para abordar la tarea actual. (Como argumento en otro lugar, https://t.co/qE0vAwB636, el pre-entrenamiento puede ser visto como la ingesta del conocimiento declarativo de la humanidad, mientras que el post-entrenamiento puede ser visto como la ingesta incremental del conocimiento procedimental de la humanidad, en términos de desarrollos cada vez más largos de los procedimientos). El coste/precisión de esta resolución de problemas compositivos de ensayo y error no se basa en la complejidad computacional inicial de la tarea actual, sino en la facilidad para ensamblar una solución a partir de la memoria actual. Por ello, los LLM presentan baja precisión en tareas que se alejan de la distribución previa y posterior al entrenamiento. Véase https://t.co/RL9ZEOKbpQ. Un indicio claro de la resolución de problemas basada en la memoria es que el modelo puede presentar baja precisión y tokens intermedios ("computación") más largos cuando el problema está fuera de la distribución de entrenamiento, incluso si es trivialmente solucionable desde cero. Este es el mensaje de nuestro artículo "Pensamiento Peformativo" (https://t.co/itCXNctKZ1), que se presentará en el taller de Razonamiento Eficiente #NeurIPS2025.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.