X (Twitter)

最近透過對抗來提升智能體效果的論文層出不窮，這又來了一篇關於代碼補丁的多智能體（multi-agents）論文！聲稱在SWE-bench Verified排行榜上達到了SOTA（79.4%）。它可以透過自動化錯誤修復快速改進提升程式碼品質。方法也簡單，以前自動化測試只能照顧到我們想像到的case，但很難照顧到邊緣case。於是就建構一個測試用例考官，專門來出題去測試打補丁的agent。這就是這項新研究引入的InfCode，這是一個框架，測試和補丁透過對抗性迭代相互挑戰。將測試生成和補丁創建視為對立的力量。測試試圖破壞補丁。補丁不斷發展以便通過測試。兩者都在衝突中變得更強大。不斷改進補丁以處理這些故障。又開始產生更難的測試。重複此操作，直到補丁變得健壯。它們不僅僅通過在修復存在之前設計的測試。而是不斷發現邊緣case得以強化。在SWE-Bench Verified上進行評估，該方法在補丁品質和覆蓋率方面顯示出可衡量的提升。減少了回歸，並實現了更強大的修復。論文連結：

轉載自@omarsar0

@omarsar0 開始閱讀之前，記得按讚、轉發或收藏本Threads內容由人機協同內容引擎發布 xaicreator.com

@omarsar0 最後，謝謝你花時間閱讀了這篇推文！關注@Yangyixxxx ，分享AI信息，商業洞察與增長實戰如果你喜歡這篇內容，也請按讚並轉發第一條推文，把有價值的內容分享給更多人~

来自 Yangyi（@Yangyixxxx）的推文线程

作者信息

线程正文