V3.2 是 SWE-Rebench 上最好的开源模型,但优势并不明显,而且性价比也不是最高的…… 直到你意识到他们根本没有使用缓存。 智能体编码的成本完全取决于预填充。如果缓存命中率达到约 90%,Whale 算法的单次问题成本将降至约 0.1 美元。
当然,DeepSeek 内部也使用了缓存。在 pass@5 的情况下,其性能达到 70.2,仍然与 Opus 4.5 相当,而成本却低得多,真正逊色的只有 GPT 5.2 和设计精良的工具系统。这应该能让你对下一代算法的 pass@1 性能上限有所了解。

