제가 오랫동안 주장해 온 이론은, 데이터 세트를 공개적으로 게시한 순간, 그것은 다시는 벤치마크로 사용되어서는 안 된다는 것입니다. 최신 프론티어 모델은 의미 있는 교육 변경 없이도 공개 웹 스크래핑만으로 "성과를 낼" 수 있습니다.
실제로는 이 방법이 효과적이지 않습니다. 사람들은 이미 오래된 평가가 "최초"라는 이유만으로 이미 지나치게 오래전에 작성된 평가에 집중하기 때문입니다. SWE Bench보다 더 나은 평가를 내놓는다면 사람들은 여전히 SWE Bench를 사용할 것이고, 새로운 버전의 SWE Bench보다 더 많은 관심을 받을 수도 있습니다.