V3.2는 SWE-Rebench에서 가장 우수한 오픈 소스 모델이지만, 그 차이는 미미하며 비용 효율성 측면에서도 가장 뛰어나지는 않습니다. 캐싱을 사용하지 않았다는 사실을 깨닫기 전까지는 말이죠. 에이전트 코딩 비용은 전적으로 사전 데이터 입력에 의해 좌우됩니다. 캐시 적중률이 약 90%일 경우, Whale은 문제당 약 0.1달러의 비용을 지출하게 됩니다.
물론 DeepSeek은 자체적으로 캐싱 기술을 보유하고 있습니다. pass@5에서 70.2의 성능을 보여주면서도 Opus 4.5 수준의 성능을 훨씬 저렴한 비용으로 달성하고 있으며, GPT 5.2나 잘 설계된 툴 시스템에만 약간 뒤처질 뿐입니다. 이는 차세대 알고리즘의 pass@1 성능이 얼마나 뛰어날지 짐작하게 해 줄 것입니다.

