最近透過對抗來提升智能體效果的論文層出不窮,這又來了一篇關於代碼補丁的多智能體(multi-agents)論文! 聲稱在SWE-bench Verified排行榜上達到了SOTA(79.4%)。 它可以透過自動化錯誤修復快速改進提升程式碼品質。 方法也簡單,以前自動化測試只能照顧到我們想像到的case,但很難照顧到邊緣case。 於是就建構一個測試用例考官,專門來出題去測試打補丁的agent。 這就是這項新研究引入的InfCode,這是一個框架,測試和補丁透過對抗性迭代相互挑戰。 將測試生成和補丁創建視為對立的力量。 測試試圖破壞補丁。 補丁不斷發展以便通過測試。 兩者都在衝突中變得更強大。 不斷改進補丁以處理這些故障。 又開始產生更難的測試。 重複此操作,直到補丁變得健壯。 它們不僅僅通過在修復存在之前設計的測試。 而是不斷發現邊緣case得以強化。 在SWE-Bench Verified上進行評估,該方法在補丁品質和覆蓋率方面顯示出可衡量的提升。 減少了回歸,並實現了更強大的修復。 論文連結:
轉載自@omarsar0
@omarsar0 開始閱讀之前,記得按讚、轉發或收藏 本Threads內容由人機協同內容引擎發布 xaicreator.com
@omarsar0 最後,謝謝你花時間閱讀了這篇推文! 關注@Yangyixxxx ,分享AI信息,商業洞察與增長實戰 如果你喜歡這篇內容,也請按讚並轉發第一條推文,把有價值的內容分享給更多人~
