X (Twitter)

Leer el perspicaz artículo de Manus, "Ingeniería de contexto para agentes de IA: lecciones de la creación de Manus", fue muy gratificante e inspirador. @ManusAI ¿Cómo podemos solucionar el problema de que los agentes de IA se vuelvan más lentos, menos inteligentes y más caros optimizando drásticamente la estructura de información contextual que se introduce en el modelo sin modificar el modelo en sí? En esencia, se trata de construir un «sistema operativo centrado en un LLM», y estos aspectos se describen a continuación. Optimización del rendimiento: proteja el “KV-Cache” como lo haría con una base de datos. Punto débil: Los agentes funcionan lentamente y son costosos, esencialmente porque realizan muchos cálculos repetitivos para cada solicitud. Información técnica: Durante la inferencia de modelos grandes, se genera una caché KV temporal. Si la primera parte de las indicaciones de entrada permanece sin cambios, esta caché puede reutilizarse, lo que agiliza la inferencia hasta diez veces. La solución de Manus: la estrategia de “congelación de prefijos”. Nunca inserte información que cambie dinámicamente (como una marca de tiempo con precisión de segundo) al inicio del indicador del sistema. Cambiar incluso un solo carácter al principio invalidará toda la caché KV, obligando al sistema a iniciar el cálculo desde cero. Esto es similar a colocar "constantes estáticas" al principio y "variables dinámicas" al final al escribir código para maximizar la tasa de aciertos de caché. Gestión del Estado: Combatiendo la «amnesia» de los grandes modelos Punto débil: a medida que la cadena de tareas se hace más larga, el modelo tiende a "perderse en el medio", olvidando su objetivo inicial o un determinado estado intermedio. Perspectiva técnica: La arquitectura Transformer presta mayor atención al principio y al final de los textos largos, pero menos a la parte central. Simplemente acumular el historial de tareas en la parte central facilita que el modelo pase por alto ciertas partes. La solución a Manus es "Recitación Explícita del Estado". No se trata solo de registrar; obliga al modelo a regenerar la lista de tareas pendientes actual y el estado actual al final de cada salida. Esto aprovecha el mecanismo de atención del Transformador: mueve forzosamente la información de estado más importante al último punto en la línea de visión del modelo, lo que equivale a realizar una "calibración de atención" antes de cada inferencia. Manejo de errores: Trate los "mensajes de error" como datos de entrenamiento. Problema: El software tradicional suele detectar y reintentar cuando encuentra un error, pero para los agentes, si se elimina el registro de errores, el modelo no sabrá que acaba de cometer un error y podría repetirlo. Perspectiva técnica: Los modelos grandes poseen capacidades de aprendizaje contextual. No solo pueden aprender a hacer las cosas bien, sino también a aprender a hacerlas mal. La solución de Manus: preservar el contexto de la "muestra negativa". Cuando falla la herramienta de ejecución del agente, se conserva toda la pila de errores. El modelo detecta "ruta A -> fallo" y su distribución de probabilidad interna reduce automáticamente el peso de la ruta A en la siguiente inferencia. Este es un tipo de aprendizaje por refuerzo en tiempo de ejecución. No es necesario entrenar el modelo; basta con dejar los "cadáveres fallidos" en el entorno, y el modelo aprenderá a encontrar caminos alternativos por sí solo. Diseño de muestra: Cómo evitar que el modelo entre en "modo de autocompletado" Punto débil: si le das a tu modelo un formato de pocas tomas que es demasiado perfecto y demasiado uniforme, el modelo se volverá estúpido. Perspectiva técnica: Los modelos grandes tienen una fuerte tendencia a copiar patrones en su núcleo. Cuando descubren que la entrada está en un formato repetitivo, tienden a copiarlo mecánicamente y dejan de pensar en la lógica del contenido. La solución de Manus: introducir “entropía estructural” (ruido). Evite que los registros históricos de interacción parezcan idénticos. Conserve intencionalmente algunos registros heterogéneos y deficientes al crear el contexto. Esta sutil "sensación de caos" rompe la inercia mecánica del modelo, obligándolo a "comprender" verdaderamente el contenido actual cada vez para generar una respuesta, en lugar de simplemente completar el texto. Lea el texto original

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo