多智能體系統(Multi-agent systems)常常讓人失望? 問題可能不在於智能體本身,而是它們的組織方式。 大多數系統採用固定的鍊式、樹狀或圖狀結構,無法隨著任務的變化而調整。 但如果系統能夠學習自己的協作模式呢? 這篇重磅論文介紹了一個名為Puppeteer 的框架,它能動態地編排智能體,而不是依賴預先設計好的拓樸結構。 關鍵在於: • 不再預先定義協作結構,而是由一個協調器根據不斷變化的對話狀態來選擇下一個發言的智能體。 • 使用REINFORCE 演算法訓練策略,直接優化任務成功率。 • 將所有內容序列化為連續的智能體選擇,而不是搜尋複雜的圖拓撲,從而避開組合複雜性。 結果令人驚訝: 自然形成了緊湊的循環模式,而不是龐大的圖結構,其中2-3 個智能體處理大部分工作。 更厲害的是,系統能夠自主發現效率。 成果展示: • 在GSM-Hard 數學問題上:準確率達到70%(相較之下,基礎模型單獨使用時只有13.5%)。 • 在MMLU-Pro 上:達到83%(基線為76%)。 • 在SRDD 軟體開發:達到76.4%(基線為60.6%)。 這些提升伴隨著token 消耗的降低。 論文表明,在整個訓練過程中,token 成本持續下降,而表現卻在提高。 他們也證明了智能體選擇過程滿足馬可夫性質,這意味著當前狀態就能決定最優的下一個智能體,而無需追蹤完整歷史。 所以: 對AI 開發者來說,學習到的簡單性勝過精心設計的複雜性。 經過訓練的路由器,加上一些專業智能體,就能勝過精心設計的工作流程,同時也能降低運算開銷。
本內容由xaicreator翻譯生成 xaicreator.com
論文連結:openreview.net/pdf/9727f658d7…
感謝你花時間閱讀了這篇推文! 關注@Yangyixxxx ,分享AI訊息,商業洞察與增長實戰如果你喜歡這篇內容,也請點讚並轉發第一條推文,把有價值的內容分享給更多人~
