[編碼智能體新基準] cline-bench: @cline 團隊全新發布的開源、面向真實世界的編碼智能體基準測試倡議。這個倡議的核心目標是解決當前編碼智能體評測領域的兩大痛點:現有基準(如SWE-Bench)過於學術化、可信度不足、容易被“刷分”,以及缺乏真正可用於強化學習訓練的高品質環境。 為什麼需要cline-bench? 目前主流編碼智能體基準(如SWE-Bench、SWE-Bench Verified)有下列問題: · 任務過於靜態、簡化:大多基於單一GitHub Issue,要求智能體一次產生patch,難以反映真實開發中的多輪迭代、調試、工具使用等複雜流程。 · 資料污染與刷分風險高:許多任務已洩漏到訓練資料中,導致模型在基準上表現虛高,但實際工程中表現平平。 · 難以用於模型訓練:現有基準缺乏互動式環境,無法直接作為RL 的訓練沙盒。 · 評測不全面:忽略了智能體在真實專案中的長期穩定性、情境理解、錯誤復原能力等關鍵指標。 Cline 團隊認為,隨著Claude Sonnet 4.5、GPT-5.1 等模型在SWE-Bench 上成績逼近70-80%,單純追求SWE-Bench 分數已無意義。業界需要一個更難、更真實、更可信的評測體系,來驅動下一代編碼智能體的真正進步。 cline-bench 的核心設計理念 1. 完全來自真實開源專案: · 任務直接取自熱門開源倉庫(如Django、Matplotlib、SymPy 等)的實際開發歷史。 · 包含多文件修改、複雜依賴、重構、效能最佳化、文件更新等真實工程師日常遇到的難題。 · 任務難度遠高於SWE-Bench,單一任務可能需要數十到上百步互動。 2. 高保真互動環境: · 提供完整的Git 倉庫快照+ 終端模擬器+ 檔案系統存取。 · 智能體可以自由執行指令(git、pytest、pip、bash 等)、多次編輯檔案、執行測試、檢視錯誤、自我除錯。 · 支援多輪對話與迭代,真正模擬人類開發者工作流程。 3. 可直接用於強化學習訓練: · 每個任務都是完整的OpenAI Gym 風格的RL 環境。 · 研究者/公司可以直接拿去訓練自己的編碼智能體模型(類似AlphaCode 或OpenAI 的程式碼RL 專案)。 4. 開放、透明、防刷分機制: · 完全開源(程式碼、資料集、評測腳本全部公開)。 · 採用私有測試集+ 定期更新任務的方式防止資料污染。 · 鼓勵社區貢獻真實任務。 cline-bench 的主要用途(官方定位的三大價值) 1. 可靠評測:給開發者、研究者和公司一個真正可信的分數參考,避免被行銷數字誤導。 2. 模型對齊與訓練:提供高品質RL 環境,幫助大家訓練出在真實工程中好用的編碼智能體。 3. 推動產業進步:建立一個社群驅動的、持續迭代的基準,取代逐漸失效的SWE-Bench。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
![[編碼智能體新基準] cline-bench: @cline 團隊全新發布的開源、面向真實世界的編碼智能體基準測試倡議。這個倡議的核心目標是解決當前編碼智能體評測領域的兩大痛點:現有基準(如SWE-Bench)過於學術化、可信度不足、容易被](https://pbs.twimg.com/media/G6Pb93hbQAAAdNx.jpg)