Minha teoria de longa data: no momento em que você publica um conjunto de dados, ele nunca mais deve ser usado como referência. Os modelos de vanguarda mais recentes conseguem "obter ganhos" apenas com a extração de dados da web pública, sem quaisquer alterações significativas no treinamento.
Na prática, isso não funciona porque as pessoas já se concentram demais em avaliações desatualizadas, contanto que sejam "as primeiras". Se você criar uma avaliação melhor do que o SWE Bench, as pessoas ainda usarão o SWE Bench e você poderá obter mais atenção com uma nova versão do SWE Bench.