X (Twitter)

Construcción de un marco multiagente consciente del contexto y de nivel de producción eficiente Esta publicación oficial del blog de Google profundiza en cómo abordar los cuellos de botella de rendimiento causados por la sobrecarga de información al desarrollar agentes de IA complejos a través de una "ingeniería de contexto" sistemática, proponiendo un concepto de diseño arquitectónico completamente nuevo utilizando Google ADK como ejemplo. Desafío principal: Cuello de botella de contexto. A medida que las tareas que procesan los agentes inteligentes se vuelven cada vez más complejas (como flujos de trabajo a largo plazo, investigación exhaustiva y mantenimiento de código), la cantidad de información que necesitan rastrear crece exponencialmente. Simplemente ampliar la ventana de contexto del modelo no es una solución a largo plazo, ya que se enfrentan a tres presiones principales: • Costo y latencia: Cuanto más largo sea el contexto, mayor será el costo de inferencia y más lento el tiempo de respuesta. • Atenuación de la señal: una gran cantidad de registros irrelevantes o información desactualizada pueden provocar que el modelo se "pierda" y no pueda capturar instrucciones clave (perdido en el medio). • Limitaciones físicas: en escenarios del mundo real, la cantidad de datos (como resultados de búsqueda de RAG o registros de diálogo completos) eventualmente superará cualquier límite de ventana fijo. Concepto central: El contexto es la "vista de compilación" El artículo propone un cambio fundamental en el pensamiento: en lugar de ver el contexto como un búfer de cadenas que se añade constantemente, debería verse como una "vista compilada" del estado subyacente. • Datos de origen: registros de sesión completos, memoria a largo plazo y archivos. • Compilador: una serie de pasos de procesamiento responsables de filtrar, ordenar y transformar datos. • Vista: El “contexto de trabajo” que finalmente se envía al LLM. Diseño de arquitectura clave A. Estructura escalonada ADK divide los datos de contexto en cuatro niveles para separar el "almacenamiento" de la "presentación": Contexto de trabajo: Un mensaje que se crea sobre la marcha y se usa solo para la llamada actual. Es temporal y está optimizado. Sesión: Un registro estructurado y persistente de interacciones (que contiene mensajes de usuario, llamadas a herramientas, mensajes de error, etc.). Es un hecho objetivo. • Memoria: conocimiento a largo plazo (como las preferencias del usuario) que existe en todas las sesiones. • Artefactos: Objetos de datos grandes (como archivos PDF, CSV y registros extensos). Solo se referencian (por nombre/versión) y no se pegan directamente en el Prompt. B. Procesos de tuberías (flujos y procesadores) Al definir una "cadena de procesadores" ordenada, los desarrolladores pueden controlar la generación de contexto como bloques de construcción. Por ejemplo, pueden realizar primero comprobaciones de permisos, luego insertar instrucciones del sistema y, por último, insertar historial comprimido. Esto hace que el proceso de creación de contexto sea observable y comprobable. C. Gestión inteligente de la relevancia Para mantener el contexto "conciso", el sistema y el agente trabajan juntos para determinar qué información se necesita en este momento: Cargar artefactos a demanda: De forma predeterminada, el agente solo ve referencias a nombres de archivo. Solo invoca herramientas para cargar artefactos temporalmente cuando está seguro de que necesita ver el contenido. Este proceso se descarta después de su uso, lo que evita la contaminación permanente del contexto. • Recuperación de memoria activa/pasiva: busque activamente recuerdos a largo plazo relevantes utilizando herramientas o inyéctelos automáticamente a través de un preprocesador. • Compresión y filtrado: ejecute automáticamente tareas en segundo plano a nivel de sesión para "comprimir" registros detallados antiguos en resúmenes o filtrar directamente el ruido inútil según las reglas. D. Contexto multiagente En sistemas multiagente, ADK emplea un control de alcance estricto para evitar la explosión de contexto y las ilusiones: • Entrega a pedido: cuando el agente principal llama al agente secundario, de manera predeterminada, no se pasan todos los registros del historial, solo se pasan las instrucciones necesarias y la cantidad mínima de contexto. • Reparto narrativo: Al cambiar de agente, el sistema convierte los mensajes del asistente del agente anterior en contexto narrativo (p. ej., "[Información de contexto]: El agente A acaba de decir..."). Esto evita que el nuevo agente crea erróneamente que realizó las acciones anteriores, evitando así la confusión cognitiva. El argumento central de este artículo es que el desarrollo de agentes de IA de nivel de producción no puede depender únicamente de la "acumulación de tokens", sino que debe establecer un sistema eficiente de gestión del ciclo de vida del contexto. Al considerar el contexto como un sistema compilado dinámicamente, en capas y cargado a pedido, los desarrolladores pueden crear aplicaciones de agentes inteligentes que sean a la vez inteligentes (con suficiente información) y eficientes (baja latencia, bajo costo). Lea el texto original

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo