X (Twitter)

Vue panoramique des protocoles de communication des agents intelligents La dernière publication de @CopilotKit, « The Agent Protocol Landscape », analyse les protocoles d'agents tels que MCP, A2A et AG-UI, ainsi que la composition de l'écosystème des agents, ce qui peut nous aider à mieux comprendre les protocoles de communication des agents. Le document de référence sur les concepts clés et l'écosystème commence par définir la terminologie de base : les applications agentiques désignent les interfaces où les utilisateurs collaborent directement avec des agents, permettant une interaction multimodale en temps réel. L'écosystème de protocoles s'articule autour d'interactions à plusieurs niveaux, incluant les connexions entre agents et utilisateurs, l'intégration des agents avec les outils et les données, ainsi que la coordination entre agents. Ces protocoles favorisent la compatibilité de l'écosystème, notamment en facilitant la collaboration inter-frameworks grâce à des formats partagés. Les protocoles de base comprennent : • MCP (Model Context Protocol) : une norme open source maintenue par Anthropic, gérant principalement le contexte structuré et l'accès aux outils entre les modèles et les clients, assurant des connexions sécurisées aux systèmes externes. • AG-UI (Agent-User Interaction Protocol) : Un protocole open-source maintenu par CopilotKit, axé sur l'interaction bidirectionnelle en temps réel entre le backend et le frontend de l'agent, prenant en charge divers clients tels que React, mobile ou Slack. • A2A (Agent-à-Agent) : Une licence open source maintenue par Google qui permet la messagerie sécurisée et la délégation de tâches entre agents à travers différents frameworks. Ces protocoles forment une pile complémentaire : AG-UI assure l’interface utilisateur, les outils de gestion MCP permettent l’accès et A2A gère la coordination multi-agents. De plus, les spécifications d’interface utilisateur génératives telles que MCP-UI (Anthropic/Microsoft + Shopify) et Open-JSON-UI (OpenAI) complètent ces protocoles, permettant aux agents de renvoyer des composants d’interface utilisateur dynamiques plutôt que du texte brut, ce qui améliore la flexibilité des interactions. Aperçu du protocole : Agents intelligents ↔ Interaction utilisateur : Piloté par AG-UI, fournissant des normes événementielles, prenant en charge le rendu des spécifications d’interface utilisateur génératives et réalisant la transformation du chat en un mode « collaborateur ». • Agents ↔ Interface utilisateur déclarative : MCP-UI et Open-JSON-UI définissent des formats visuels compatibles avec LLM qui aident les agents à générer des réponses affichables. • Agents intelligents ↔ Outils et données : MCP assure un accès sécurisé aux ressources externes et évite le partage direct des outils. • Agent intelligent ↔ Agent intelligent : A2A prend en charge la négociation des objectifs et la distribution des tâches, favorisant ainsi la collaboration distribuée. AG-UI mérite une attention particulière ; il s’agit d’un protocole horizontal de type « plusieurs à plusieurs » qui prend en charge l’intégration de diverses spécifications d’interface utilisateur et fournit des outils de visualisation ou de collaboration multi-agents via des mécanismes d’« établissement de liaison » (comme la liaison entre AG-UI et MCP). CopilotKit, en tant que framework de plus haut niveau, unifie davantage ces protocoles, permettant ainsi la composabilité pour les applications de production. Le document de comparaison et de clarification met l'accent sur la complémentarité, et non la concurrence, entre les protocoles : • AG-UI se concentre sur la connectivité d'exécution, complétant les spécifications de rendu de MCP-UI/Open-JSON-UI. • L’écosystème dans son ensemble devrait éviter une entité dominante unique et évoluer vers des normes distribuées afin d’éviter l’idée fausse selon laquelle « les protocoles sont des API » — ils s’apparentent davantage à des schémas partagés, des règles de sécurité et des spécifications d’écosystème. Il est fréquent de se méprendre sur AG-UI, le considérant comme un simple outil visuel (alors qu'il s'agit en réalité d'un protocole de connectivité), ou d'ignorer l'étendue de sa couverture au niveau utilisateur/outil. La difficulté réside dans le maintien de la conservation de l'état et de la sécurité, tout en gérant l'observabilité et la propagation des politiques à travers plusieurs protocoles. Adresse du document :

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil