X (Twitter)

最近、敵対的手法によるインテリジェントエージェントのパフォーマンス向上に関する論文が急増していますが、今度はコードパッチングを用いたマルチエージェントに関する新たな論文が登場しました。この論文は、SWE-bench Verifiedリーダーボードで最先端（SOTA）パフォーマンス（79.4%）を達成したと主張しています。自動バグ修正によりコードの品質を迅速に向上できます。方法は簡単です。以前は、自動テストでは想像したケースしかカバーできず、エッジケースをカバーするのは困難でした。そこで、パッチ適用エージェントをテストするための質問を設定するためのテストケース検査ツールを作成しました。この新しい研究によって導入された InfCode は、テストとパッチが敵対的な反復を通じて互いに挑戦するフレームワークです。テスト生成とパッチ作成を相反する力として捉えます。テストではパッチを破壊しようとしました。テストに合格するためにパッチが継続的に開発されています。両者ともこの紛争で強くなった。これらの問題に対処するためにパッチを継続的に改善します。彼らはさらに難しいテストを作り始めました。パッチが堅牢になるまでこのプロセスを繰り返します。修理前にテストされるだけではありません。代わりに、エッジケースを継続的に特定して強化します。この方法は SWE-Bench Verified で評価され、パッチの品質と範囲において測定可能な改善が示されました。回帰を減らし、より堅牢な修復を実現しました。論文リンク:

@omarsar0から転載

@omarsar0 読み始める前に、この投稿に「いいね！」、シェア、または保存することを忘れないでくださxaicreator.com、人間とコンピュータの共同コンテンツエンジンによって公開されました。 https://t.co/Gxsobg3hEN

@omarsar0 最後に、このツイートを読んでいただきありがとうございます! AI 情報、ビジネス洞察、成長戦略については、@Yangyixxxx をフォローしてください。このコンテンツをお楽しみいただけましたら、最初のツイートに「いいね！」や「シェア」をして、より多くの人に貴重な情報を広めてください。

Yangyi（@Yangyixxxx）のスレッド

作者情報

スレッド内容