私の長年の理論は、データセットを公開した瞬間から、それを再びベンチマークとして使用すべきではないということです。 新しいフロンティアモデルは、意味のあるトレーニングの変更なしに、公開 Web スクレイピングだけで「利益を得る」ことができます。
実際には、これはうまくいきません。なぜなら、人々は「最初の」古い評価に既に過度に注目しているからです。SWE Benchよりも優れた評価を作成すれば、人々は依然としてSWE Benchを使用し、新しいバージョンのSWE Benchにより多くの注目を集める可能性があります。