Les systèmes multi-agents déçoivent-ils souvent ? Le problème ne réside peut-être pas dans les agents eux-mêmes, mais dans leur organisation. La plupart des systèmes utilisent des structures fixes de type chaîne, arbre ou graphe qui ne peuvent pas être ajustées en fonction de l'évolution des tâches. Et si le système pouvait apprendre ses propres modèles de collaboration ? Cet article novateur présente un cadre appelé Puppeteer, capable d'orchestrer dynamiquement des agents au lieu de s'appuyer sur des topologies prédéfinies. Le point essentiel est : • Au lieu de structures collaboratives prédéfinies, un coordinateur sélectionne le prochain intervenant en fonction de l'état du dialogue, qui évolue constamment. • La stratégie d'entraînement de l'algorithme REINFORCE optimise directement le taux de réussite des tâches. • Au lieu de rechercher des topologies de graphes complexes, sérialisez tout le contenu en choix d'agents continus, évitant ainsi la complexité combinatoire. Le résultat fut surprenant : Cela conduit naturellement à un schéma compact et cyclique, plutôt qu'à une structure de graphe étendue, dans laquelle 2 ou 3 agents gèrent la majeure partie du travail. Plus impressionnant encore, le système peut détecter de manière autonome les problèmes d'efficacité. Présentation des résultats : • Sur les problèmes mathématiques GSM-Hard : la précision atteint 70 % (contre seulement 13,5 % lorsque le modèle de base est utilisé seul). • Sur MMLU-Pro : 83 % (valeur de base 76 %). • Dans le développement de logiciels SRDD : 76,4 % (valeur de référence 60,6 %). Ces améliorations s'accompagnent d'une réduction du coût des jetons. L'article montre que le coût du jeton continue de diminuer tout au long du processus d'entraînement, tandis que les performances s'améliorent. Ils ont également prouvé que le processus de sélection des agents satisfait la propriété de Markov, ce qui signifie que l'état actuel peut déterminer l'agent optimal suivant sans avoir à suivre l'historique complet. donc: Pour les développeurs d'IA, la simplicité d'apprentissage est préférable à une complexité élaborée. Un routeur entraîné, associé à des agents intelligents spécialisés, peut surpasser un flux de travail bien conçu tout en réduisant la charge de calcul.
Ce contenu a été géxaicreator.comttps://t.co/Gxsobg3hEN
Lien openreview.net/pdf/9727f658d7…//t.co/XtGCdCeZbC
Merci d'avoir pris le temps de lire ce tweet ! Suivez @Yangyixxxx pour des informations sur l'IA, des analyses commerciales et des stratégies de croissance. Si ce contenu vous a plu, n'hésitez pas à aimer et à partager le premier tweet pour diffuser ces informations précieuses à un public plus large.
