我一直以来的理论是:一旦你将数据集公开发布,它就永远不应该再被用作基准。 较新的前沿模型只需通过公共网络抓取即可“取得进展”,而无需任何有意义的训练更改。
实际上,这种方法行不通,因为人们往往会过度关注那些“第一个”发布的、过时的评估工具。即使你开发出比 SWE Bench 更好的评估工具,人们仍然会使用 SWE Bench,而你可能会因为 SWE Bench 的新版本而获得更多关注。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年12月7日 07:15
我一直以来的理论是:一旦你将数据集公开发布,它就永远不应该再被用作基准。 较新的前沿模型只需通过公共网络抓取即可“取得进展”,而无需任何有意义的训练更改。
实际上,这种方法行不通,因为人们往往会过度关注那些“第一个”发布的、过时的评估工具。即使你开发出比 SWE Bench 更好的评估工具,人们仍然会使用 SWE Bench,而你可能会因为 SWE Bench 的新版本而获得更多关注。