最近、敵対的手法によるインテリジェントエージェントのパフォーマンス向上に関する論文が急増していますが、今度はコードパッチングを用いたマルチエージェントに関する新たな論文が登場しました。この論文は、SWE-bench Verifiedリーダーボードで最先端(SOTA)パフォーマンス(79.4%)を達成したと主張しています。 自動バグ修正によりコードの品質を迅速に向上できます。 方法は簡単です。以前は、自動テストでは想像したケースしかカバーできず、エッジケースをカバーするのは困難でした。 そこで、パッチ適用エージェントをテストするための質問を設定するためのテスト ケース検査ツールを作成しました。 この新しい研究によって導入された InfCode は、テストとパッチが敵対的な反復を通じて互いに挑戦するフレームワークです。 テスト生成とパッチ作成を相反する力として捉えます。 テストではパッチを破壊しようとしました。 テストに合格するためにパッチが継続的に開発されています。 両者ともこの紛争で強くなった。 これらの問題に対処するためにパッチを継続的に改善します。 彼らはさらに難しいテストを作り始めました。 パッチが堅牢になるまでこのプロセスを繰り返します。 修理前にテストされるだけではありません。 代わりに、エッジケースを継続的に特定して強化します。 この方法は SWE-Bench Verified で評価され、パッチの品質と範囲において測定可能な改善が示されました。 回帰を減らし、より堅牢な修復を実現しました。 論文リンク:
@omarsar0から転載
@omarsar0 読み始める前に、この投稿に「いいね!」、シェア、または保存することを忘れないでくださxaicreator.com、人間とコンピュータの共同コンテンツ エンジンによって公開されました。 https://t.co/Gxsobg3hEN
@omarsar0 最後に、このツイートを読んでいただきありがとうございます! AI 情報、ビジネス洞察、成長戦略については、@Yangyixxxx をフォローしてください。 このコンテンツをお楽しみいただけましたら、最初のツイートに「いいね!」や「シェア」をして、より多くの人に貴重な情報を広めてください。
