實際上,這種方法行不通,因為人們往往會過度關注那些「第一個」發布的、過時的評估工具。即使你開發出比 SWE Bench 更好的評估工具,人們仍然會使用 SWE Bench,而你可能會因為 SWE Bench 的新版本而獲得更多關注。