Dans le domaine de l'intelligence artificielle, la plupart des systèmes d'IA actuels sont plus performants lorsqu'ils fonctionnent seuls. Non pas que la collaboration soit sans importance, mais parce que l'entraînement des systèmes multi-agents est fondamentalement plus complexe. L'apprentissage par renforcement mono-agent vise à optimiser les performances individuelles, mais la recherche complexe exige souvent une collaboration étroite, notamment l'échange d'informations et l'application distribuée des connaissances. À l'instar des équipes de recherche humaines, elle requiert une coopération tacite entre ses membres. Les solutions techniques actuelles présentent des limites dans ce domaine. Les agents formés individuellement peinent à apprendre à coopérer, et les mécanismes de récompense ont tendance à se concentrer sur des indicateurs individuels, ce qui réduit considérablement l'efficacité globale de l'équipe d'agents. Une étude récente a proposé le cadre M-GRPO (Optimisation de politiques relatives de groupe multi-agents), spécifiquement conçu pour résoudre le problème de la collaboration entre agents dans le cadre de tâches de recherche scientifique approfondie. Son innovation majeure réside dans le fait de passer d'une approche centrée sur le comportement individuel à une approche axée sur la performance globale de l'équipe. En partageant des signaux de récompense, les agents peuvent apprendre de manière autonome des stratégies de coopération, en formant progressivement des modèles de coordination, des protocoles de communication et des divisions de tâches, tout en maintenant la stabilité du processus d'apprentissage. L'équipe de recherche a également développé le système MrlX. Dans la pratique, plusieurs agents d'IA peuvent collaborer pour relever des défis de recherche complexes nécessitant une collaboration étroite, comme la découverte scientifique et la synthèse des connaissances. L'innovation majeure de cette technologie réside dans l'extension de l'optimisation relative des politiques de groupe aux scénarios multi-agents, tout en préservant la stabilité de l'apprentissage. Parallèlement, elle gère efficacement l'utilisation des ressources de calcul grâce à des mécanismes d'apprentissage progressif et d'allocation des tâches. Ce passage de l'optimisation individuelle à l'efficacité collective pourrait constituer une orientation cruciale pour surmonter les obstacles actuels à la collaboration en IA, et il offre également de nouvelles possibilités pour la construction de systèmes d'IA dotés de véritables capacités de collaboration d'équipe semblables à celles des humains.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.