최근 적대적 방법을 통해 지능형 에이전트의 성능을 향상시키는 논문이 급증하고 있으며, 이제 코드 패치를 적용한 다중 에이전트에 대한 또 다른 논문이 등장했습니다! 이 논문은 SWE-bench Verified 리더보드에서 최고 성능(SOTA)(79.4%)을 달성했다고 주장합니다. 자동화된 버그 수정을 통해 코드 품질을 빠르게 개선할 수 있습니다. 방법은 간단합니다. 이전에는 자동화된 테스트가 우리가 상상한 사례만 다룰 수 있었고, 극단적인 사례를 다루는 것은 어려웠습니다. 그래서 그들은 패치 에이전트를 테스트하기 위한 질문을 설정하기 위해 특별히 테스트 케이스 시험관을 만들었습니다. 이 새로운 연구에서 소개된 InfCode는 테스트와 패치가 적대적 반복을 통해 서로에게 도전하는 프레임워크입니다. 테스트 생성과 패치 생성을 반대되는 힘으로 봅니다. 테스트는 패치를 깨는 것을 시도했습니다. 테스트를 통과하기 위해 패치가 지속적으로 개발되고 있습니다. 두 사람 모두 갈등 속에서 더욱 강해졌습니다. 이러한 문제를 해결하기 위해 패치를 지속적으로 개선합니다. 그들은 훨씬 더 어려운 시험을 만들기 시작했습니다. 패치가 튼튼해질 때까지 이 과정을 반복합니다. 수리가 이루어지기 전에 단순히 테스트를 거치는 것이 아닙니다. 대신, 지속적으로 예외 사례를 식별하고 강화합니다. 이 방법은 SWE-Bench Verified에서 평가되었으며 패치 품질과 적용 범위에서 측정 가능한 개선이 나타났습니다. 이를 통해 회귀가 감소하고 더욱 견고한 복구가 가능해졌습니다. 논문 링크:
@omarsar0에서 다시 게시됨
@omarsar0 읽기 전에 이 게시물에 '좋아요'를 누르거나 공유하거나 저장해 주세요. xaicreator.com협업 콘텐츠 엔진에 의해 게시되었습니다. https://t.co/Gxsobg3hEN
@omarsar0 마지막으로, 이 트윗을 읽어주셔서 감사합니다! AI 정보, 비즈니스 통찰력, 성장 전략을 알아보려면 @Yangyixxxx를 팔로우하세요. 이 콘텐츠가 마음에 드셨다면 첫 번째 트윗에 좋아요를 누르고 공유해 주시면 귀중한 정보를 더 많은 사람에게 전파할 수 있습니다.
