V3.2 是 SWE-Rebench 上最好的開源模型,但優勢並不明顯,而且性價比也不是最高的… 直到你意識到他們根本沒有使用快取。 智能體編碼的成本完全取決於預先填充。如果快取命中率達到約 90%,Whale 演算法的單次問題成本將降至約 0.1 美元。
當然,DeepSeek 內部也使用了快取。在 pass@5 的情況下,其性能達到 70.2,仍然與 Opus 4.5 相當,而成本卻低得多,真正遜色的只有 GPT 5.2 和設計精良的工具系統。這應該能讓你對下一代演算法的 pass@1 效能上限有所了解。

