인공지능 분야에서 오늘날 대부분의 AI 시스템은 단독으로 작업하는 데 더 능숙합니다. 이는 협업이 중요하지 않아서가 아니라, 다중 에이전트 시스템을 훈련하는 것이 근본적으로 더 어렵기 때문입니다. 단일 에이전트 강화 학습은 개별 성과 최적화에 초점을 맞추지만, 복잡한 연구는 정보 교환 및 분산 지식 적용과 같은 심층적인 협업을 필요로 하는 경우가 많습니다. 인간 연구팀과 마찬가지로, 구성원 간의 암묵적인 협력이 필요합니다. 현재의 기술 솔루션은 이 부분에서 한계가 있습니다. 개별적으로 훈련된 상담원들은 협력하는 법을 배우는 데 어려움을 겪고, 보상 메커니즘은 개별 지표에 집중되는 경향이 있어 상담원 팀의 전반적인 효율성을 크게 저하시킵니다. 최근 연구에서는 심층 과학 연구 과제에서 에이전트 간 협업 문제를 해결하기 위해 특별히 설계된 M-GRPO(다중 에이전트 그룹 상대 정책 최적화) 프레임워크를 제안했습니다. 이 프레임워크의 핵심적인 혁신은 개별 행동에서 팀의 전반적인 성과로 초점을 전환하는 데 있습니다. 보상 신호를 공유함으로써 에이전트는 자율적으로 협력 전략을 학습하고, 훈련 과정의 안정성을 유지하면서 점진적으로 조정 패턴, 통신 프로토콜, 작업 분할을 형성할 수 있습니다. 연구팀은 또한 MrlX 시스템을 개발했습니다. 실제 적용에서는 여러 AI 에이전트가 협력하여 과학적 발견이나 지식 종합과 같이 심층적인 협업이 필요한 복잡한 연구 과제를 해결할 수 있습니다. 이 기술의 핵심 혁신은 훈련 안정성을 유지하면서 그룹 상대 정책 최적화를 다중 에이전트 시나리오로 확장하는 데 있습니다. 동시에, 커리큘럼 학습 및 작업 할당 메커니즘을 통해 컴퓨팅 리소스 사용을 효과적으로 관리합니다. 개인적 최적화에서 집단적 효율성으로의 이러한 전환은 현재 AI 협업의 병목 현상을 극복하는 데 중요한 방향이 될 수 있으며, 실제로 인간과 유사한 팀 협업 기능을 갖춘 AI 시스템을 구축할 수 있는 새로운 가능성을 제공합니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.