X (Twitter)

[編碼智能體新基準] cline-bench: @cline 團隊全新發布的開源、面向真實世界的編碼智能體基準測試倡議。這個倡議的核心目標是解決當前編碼智能體評測領域的兩大痛點：現有基準（如SWE-Bench）過於學術化、可信度不足、容易被“刷分”，以及缺乏真正可用於強化學習訓練的高品質環境。為什麼需要cline-bench？目前主流編碼智能體基準（如SWE-Bench、SWE-Bench Verified）有下列問題： · 任務過於靜態、簡化：大多基於單一GitHub Issue，要求智能體一次產生patch，難以反映真實開發中的多輪迭代、調試、工具使用等複雜流程。 · 資料污染與刷分風險高：許多任務已洩漏到訓練資料中，導致模型在基準上表現虛高，但實際工程中表現平平。 · 難以用於模型訓練：現有基準缺乏互動式環境，無法直接作為RL 的訓練沙盒。 · 評測不全面：忽略了智能體在真實專案中的長期穩定性、情境理解、錯誤復原能力等關鍵指標。 Cline 團隊認為，隨著Claude Sonnet 4.5、GPT-5.1 等模型在SWE-Bench 上成績逼近70-80%，單純追求SWE-Bench 分數已無意義。業界需要一個更難、更真實、更可信的評測體系，來驅動下一代編碼智能體的真正進步。 cline-bench 的核心設計理念 1. 完全來自真實開源專案： · 任務直接取自熱門開源倉庫（如Django、Matplotlib、SymPy 等）的實際開發歷史。 · 包含多文件修改、複雜依賴、重構、效能最佳化、文件更新等真實工程師日常遇到的難題。 · 任務難度遠高於SWE-Bench，單一任務可能需要數十到上百步互動。 2. 高保真互動環境： · 提供完整的Git 倉庫快照+ 終端模擬器+ 檔案系統存取。 · 智能體可以自由執行指令（git、pytest、pip、bash 等）、多次編輯檔案、執行測試、檢視錯誤、自我除錯。 · 支援多輪對話與迭代，真正模擬人類開發者工作流程。 3. 可直接用於強化學習訓練： · 每個任務都是完整的OpenAI Gym 風格的RL 環境。 · 研究者/公司可以直接拿去訓練自己的編碼智能體模型（類似AlphaCode 或OpenAI 的程式碼RL 專案）。 4. 開放、透明、防刷分機制： · 完全開源（程式碼、資料集、評測腳本全部公開）。 · 採用私有測試集+ 定期更新任務的方式防止資料污染。 · 鼓勵社區貢獻真實任務。 cline-bench 的主要用途（官方定位的三大價值） 1. 可靠評測：給開發者、研究者和公司一個真正可信的分數參考，避免被行銷數字誤導。 2. 模型對齊與訓練：提供高品質RL 環境，幫助大家訓練出在真實工程中好用的編碼智能體。 3. 推動產業進步：建立一個社群驅動的、持續迭代的基準，取代逐漸失效的SWE-Bench。

来自 meng shao（@shao__meng）的推文线程

作者信息

线程正文