No campo da inteligência artificial, a maioria dos sistemas de IA atuais funciona melhor de forma autônoma. Isso não se deve à falta de importância da colaboração, mas sim ao fato de que treinar sistemas multiagentes é fundamentalmente mais difícil. O aprendizado por reforço de agente único concentra-se na otimização do desempenho individual, mas pesquisas complexas geralmente exigem colaboração profunda, como troca de informações e aplicação de conhecimento distribuído. Assim como em equipes de pesquisa humanas, requer cooperação tácita entre os membros. As soluções técnicas atuais apresentam limitações nessa área. Agentes treinados individualmente têm dificuldade em aprender a cooperar, e os mecanismos de recompensa tendem a se concentrar em métricas individuais, reduzindo significativamente a eficiência geral da equipe de agentes. Um estudo recente propôs a estrutura M-GRPO (Otimização de Política Relativa de Grupo Multiagente), especificamente projetada para abordar o problema da colaboração entre agentes em tarefas de pesquisa científica complexa. Seu principal diferencial reside na mudança de foco do comportamento individual para o desempenho geral da equipe. Ao compartilhar sinais de recompensa, os agentes podem aprender autonomamente estratégias de cooperação, formando gradualmente padrões de coordenação, protocolos de comunicação e divisões de tarefas, mantendo a estabilidade do processo de treinamento. A equipe de pesquisa também desenvolveu o sistema MrlX. Em aplicações práticas, múltiplos agentes de IA podem colaborar para enfrentar desafios complexos de pesquisa que exigem profunda colaboração, como descobertas científicas e síntese de conhecimento. A principal inovação dessa tecnologia reside na extensão da otimização de políticas relativas a grupos para cenários multiagentes, preservando a estabilidade do treinamento. Simultaneamente, ela gerencia eficazmente o uso de recursos computacionais por meio de mecanismos de aprendizado curricular e alocação de tarefas. Essa mudança da otimização individual para a eficácia do grupo pode ser uma direção crucial para superar os atuais gargalos na colaboração em IA, além de oferecer novas possibilidades para a construção de sistemas de IA que realmente possuam capacidades de colaboração em equipe semelhantes às humanas.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.