X (Twitter)

獨立驗證DeepSeek V3.2在Terminal Bench 2上的效能終端基準測試用於衡量模型在終端場景（例如 Claude Code、Codex CLI、Gemini CLI）中支援/運行代理程式的能力。在我看來，這是人工智慧軟體開發中最重要的邏輯邏輯基準測試。它涉及人工智慧如何操作您的命令列介面 (CLI) 來下載軟體、開發程式碼、進行測試等等。官方比數是多少？如下表所示，DeepSeek v3.2 的官方得分分別為 46.4（思考型）和 37.1（非思考型）。他們使用了論文中提到的 Claude Code 測試框架。 Claude Code + Sonnet 4.5 在此基準測試中的表現如何？以下是 Claude Sonnet 4.5 在不同安全帶上的終端測試得分。請注意，Claude Code 安全帶的得分約為 40%。使用 Claude Code Harness 運行 DeepSeek V3.2 的得分是多少？我使用 DeepSeek-Reasoner（Thinking）進行了測試。在近 90 次測試中，Harbor（編排器）停止工作前運行了 77 次。假設這些樣本是無偏的，那麼 77 這個數字就足以說明問題： - 29 - 成功 - 48 - 失敗（22 次逾時 + 26 次產生錯誤代碼）這使得得分達到 38%（相當不錯，已經接近 Claude Code + Sonnet 4.5 的 40%）。但可以肯定的是，如果給 DeepSeek v3.2 模型更多時間，它肯定能完成更多超時任務，完成率會遠高於 38%——我認為可以達到 50%。但那就不是公平的比較了（測試創建者建議不要更改超時設定）。與其他開源軟體模型的比較：以下型號使用 Terminus 2 線束 1. Kimi K2 思考 - 35.7% 2. MiniMax M2 - 30% 3. Qwen 3 Coder 480B - 23.9% 結論：對於開源軟體模型而言，其性能達到了 SOTA 水平，令人難以置信的是，它幾乎與 Claude 4.5 相當，然而，我的得分低於 DeepSeek 團隊的得分：46.4（再次強調，最後 13 次測試沒有運行）。我懷疑他們可能修改了 Claude 程式碼的行為。 Claude 程式碼會以特定的方式（例如作為）提示模型，而 DeepSeek v3.2 可能不熟悉或無法很好地處理這些方式。很高興得知 DeepSeek 有 Anthropic API 接口，這讓使用 Claude Code 進行測試變得非常順利。我只需要把 settings.json 檔案放到 Docker 容器裡就行了。 DeepSeek (@deepseek_ai) 應該公開透明地分享他們是如何取得這些分數的。成本與緩存命中率：最不可思議的是，運行這 77 個測試只花了 6 美元（Harbor 不知何故放棄了最後 13 個測試）。雖然處理了近 1.2 億個令牌，但由於大部分令牌都是輸入的，並且之後都透過快取命中（DeepSeek 自動實現了基於磁碟的快取），所以成本非常低。向 Terminal Bench 團隊提出請求：請簡化恢復未完成任務就已終止的工作的流程。感謝您提供的這項卓越服務。 @terminalbench @teortaxesTex @Mike_A_Merrill @alexgshaw @deepseek_ai

來自 GDP at NeurIPS 2025（@bookwormengr）的推文串

作者資訊

推文串內容