X (Twitter)

我一直以來的理論是：一旦你將資料集公開發布，它就永遠不應該再被用作基準。較新的前沿模型只需透過公共網路抓取即可“取得進展”，而無需任何有意義的訓練變更。

實際上，這種方法行不通，因為人們往往會過度關注那些「第一個」發布的、過時的評估工具。即使你開發出比 SWE Bench 更好的評估工具，人們仍然會使用 SWE Bench，而你可能會因為 SWE Bench 的新版本而獲得更多關注。

來自 Minh Nguyen✈️NeurIPS（@menhguin）的推文串