我們僅用了10億美元就將swebench的效能提升了整整3%。在計算和數據方面分別投入了5億美元之後,遺憾的是,沒有剩餘資金來改進基準測試本身了。不過別擔心,我們已經為下次投入了100億美元。
如果一個患有嚴重自閉症的馬基雅維利主義者在這裡工作,他就能解決這個問題。只需要一個人。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月4日 上午9:17
我們僅用了10億美元就將swebench的效能提升了整整3%。在計算和數據方面分別投入了5億美元之後,遺憾的是,沒有剩餘資金來改進基準測試本身了。不過別擔心,我們已經為下次投入了100億美元。
如果一個患有嚴重自閉症的馬基雅維利主義者在這裡工作,他就能解決這個問題。只需要一個人。