实际上,这种方法行不通,因为人们往往会过度关注那些“第一个”发布的、过时的评估工具。即使你开发出比 SWE Bench 更好的评估工具,人们仍然会使用 SWE Bench,而你可能会因为 SWE Bench 的新版本而获得更多关注。