Mi teoría de larga data: en el momento en que se publica un conjunto de datos, nunca más debería usarse como punto de referencia. Los modelos de frontera más nuevos pueden "obtener ganancias" simplemente mediante el raspado web público sin ningún cambio de entrenamiento significativo.
En la práctica, esto no funciona porque la gente ya se centra demasiado en evaluaciones obsoletas, siempre y cuando sean "las primeras". Si creas una evaluación mejor que SWE Bench, la gente seguirá usándola y podrías obtener más atención con una nueva versión de SWE Bench.