X (Twitter)

Una visión panorámica de los protocolos de comunicación de agentes inteligentes La última versión de @CopilotKit, "The Agent Protocol Landscape", analiza protocolos de agentes como MCP, A2A y AG-UI, así como la composición del ecosistema de agentes, lo que puede ayudarnos a comprender mejor los protocolos de comunicación de los agentes. El documento de conceptos clave y fundamentos del ecosistema aclara en primer lugar la terminología básica: las aplicaciones agentivas se refieren a interfaces donde los usuarios colaboran directamente con agentes, lo que permite una interacción multimodal en tiempo real. El ecosistema de protocolos gira en torno a interacciones multicapa, que incluyen conexiones entre agentes y usuarios, la integración de agentes con herramientas y datos, y la coordinación entre agentes. Estos protocolos fomentan la compatibilidad del ecosistema, por ejemplo, al permitir la colaboración entre diferentes plataformas mediante formatos compartidos. Los protocolos principales incluyen: • MCP (Model Context Protocol): Un estándar de código abierto mantenido por Anthropic, que principalmente maneja el contexto estructurado y el acceso a herramientas entre modelos y clientes, garantizando conexiones seguras a sistemas externos. • AG-UI (Protocolo de interacción agente-usuario): Un protocolo de código abierto mantenido por CopilotKit, que se centra en la interacción bidireccional en tiempo real entre el backend y el frontend del agente, y que admite varios clientes como React, dispositivos móviles o Slack. • A2A (Agente a Agente): Una licencia de código abierto mantenida por Google que permite la mensajería segura y la delegación de tareas entre agentes en diferentes marcos de trabajo. Estos protocolos conforman una pila complementaria: AG-UI facilita la interfaz de usuario, las herramientas de gestión de MCP proporcionan acceso y A2A gestiona la coordinación multiagente. Además, las especificaciones de interfaz de usuario generativas, como MCP-UI (Anthropic/Microsoft + Shopify) y Open-JSON-UI (OpenAI), complementan los protocolos, permitiendo a los agentes devolver componentes de interfaz de usuario dinámicos en lugar de texto plano, lo que mejora la flexibilidad de la interacción. Descripción general del protocolo: Agentes inteligentes ↔ Interacción del usuario: Liderado por AG-UI, que proporciona estándares basados en eventos, admite la representación de especificaciones de interfaz de usuario generativas y realiza la transformación del chat a un modo de "colaborador". • Agentes ↔ Interfaz de usuario declarativa: MCP-UI y Open-JSON-UI definen formatos visuales compatibles con LLM que ayudan a los agentes a generar respuestas renderizables. • Agentes inteligentes ↔ Herramientas y datos: MCP garantiza el acceso seguro a recursos externos y evita el intercambio directo de herramientas. • Agente inteligente ↔ Agente inteligente: A2A admite la negociación de objetivos y la distribución de tareas, promoviendo la colaboración distribuida. AG-UI es particularmente destacable; se trata de un protocolo horizontal de muchos a muchos que admite la integración de diversas especificaciones de interfaz de usuario y proporciona herramientas de visualización o colaboración multiagente mediante mecanismos de "conexión" (como el enlace entre AG-UI y MCP). CopilotKit, como marco de trabajo de nivel superior, unifica aún más estos protocolos, permitiendo la composabilidad para aplicaciones de nivel de producción. El documento de comparación y aclaración enfatiza la complementariedad, no la competencia, entre los protocolos: • AG-UI se centra en la conectividad en tiempo de ejecución, complementando las especificaciones de renderizado de MCP-UI/Open-JSON-UI. • El ecosistema en su conjunto debería evitar una única entidad dominante y orientarse hacia estándares distribuidos para evitar la idea errónea de que "los protocolos son API"; son más bien esquemas compartidos, reglas de seguridad y especificaciones del ecosistema. Entre los errores comunes se encuentra considerar AG-UI como una herramienta puramente visual (cuando en realidad es un protocolo de conectividad) o ignorar su amplio alcance a nivel de usuario/herramienta. El reto reside en mantener la integridad del estado y la seguridad, a la vez que se gestiona la observabilidad y la propagación de políticas a través de múltiples protocolos. Dirección del documento:

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo