我一直以來的理論是:一旦你將資料集公開發布,它就永遠不應該再被用作基準。 較新的前沿模型只需透過公共網路抓取即可“取得進展”,而無需任何有意義的訓練變更。
實際上,這種方法行不通,因為人們往往會過度關注那些「第一個」發布的、過時的評估工具。即使你開發出比 SWE Bench 更好的評估工具,人們仍然會使用 SWE Bench,而你可能會因為 SWE Bench 的新版本而獲得更多關注。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年12月7日 清晨7:15
我一直以來的理論是:一旦你將資料集公開發布,它就永遠不應該再被用作基準。 較新的前沿模型只需透過公共網路抓取即可“取得進展”,而無需任何有意義的訓練變更。
實際上,這種方法行不通,因為人們往往會過度關注那些「第一個」發布的、過時的評估工具。即使你開發出比 SWE Bench 更好的評估工具,人們仍然會使用 SWE Bench,而你可能會因為 SWE Bench 的新版本而獲得更多關注。