人工知能の分野では、今日のAIシステムのほとんどは単独で動作することに優れています。これは、協調が重要でないからではなく、マルチエージェントシステムの訓練が根本的に難しいためです。 シングルエージェント強化学習は個体のパフォーマンスの最適化に重点を置いていますが、複雑な研究では、情報交換や分散知識の適用といった密接な連携が求められることが多く、人間の研究チームと同様に、メンバー間の暗黙の協力が不可欠です。 現在の技術的ソリューションはこの分野において限界があります。個別に訓練されたエージェントは協力関係を学習するのが難しく、報酬メカニズムは個々の指標に重点を置く傾向があり、エージェントチーム全体の効率を著しく低下させています。 最近の研究では、M-GRPO(マルチエージェントグループ相対ポリシー最適化)フレームワークが提案されました。これは、深層科学研究タスクにおけるエージェント間の連携問題に対処するために特別に設計されています。その核となるブレークスルーは、個々の行動からチーム全体のパフォーマンスへと焦点を移すことにあります。 報酬信号を共有することで、エージェントは協力戦略を自律的に学習し、トレーニング プロセスの安定性を維持しながら、調整パターン、通信プロトコル、タスクの分割を徐々に形成できるようになります。 研究チームはMrlXシステムも開発しました。実用化においては、複数のAIエージェントが連携し、科学的発見や知識の統合といった、深い連携を必要とする複雑な研究課題に取り組むことができます。 この技術の重要な革新性は、訓練の安定性を維持しながら、グループ相対ポリシー最適化をマルチエージェントシナリオに拡張することにあります。同時に、カリキュラム学習とタスク割り当てメカニズムを通じて、コンピューティングリソースの使用を効果的に管理します。 個人の最適化からグループの有効性への移行は、AI コラボレーションにおける現在のボトルネックを打破するための重要な方向性となる可能性があり、真に人間のようなチームコラボレーション機能を備えた AI システムを構築するための新たな可能性も提供します。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。