在人工智慧領域,現今的多數AI系統更擅長單打獨鬥。這並非協作不重要,而是訓練多智能體系統的難度從根本上更高。 單智能體強化學習聚焦於個別表現的最佳化,但複雜的研究工作往往需要資訊互動、分散式知識運用等深度協作。就像人類科學研究團隊一樣,需要成員間的默契配合。 目前的技術方案在這方面存在瓶頸。單獨訓練的智能體很難學會合作,獎勵機制也多著重於個別指標,導致整個智能體團隊的效能大打折扣。 最近有項研究提出了M-GRPO(多智能體群體相對策略優化)框架,專門解決智能體在深度研究任務中的協作問題。它的核心突破在於:不再以個體行為為優化目標,而是聚焦於團隊整體表現。 透過分享獎勵訊號,智能體能夠自主學習合作策略,逐步形成協調模式、溝通協議和任務分工,同時保持訓練過程的穩定性。 研究團隊也開發了MrlX系統。在實際應用中,多個AI智能體可以共同合作,攻克科學發現、知識綜合等需要深度協作的複雜研究難題。 這項技術的關鍵創新在於,在保留訓練穩定性的前提下,將群體相對策略優化擴展到了多智能體場景。同時,透過課程學習和任務分配機制,有效地管理了計算資源的使用。 這種從個體優化轉向群體效能的思路,或許正是突破當前AI協作瓶頸的重要方向,也為建構真正具備人類團隊協作能力的AI系統提供了新的可能。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。