V3.2 は SWE-Rebench 上で最高のオープン モデルですが、わずかに優れており、最もコスト効率が良いわけではありません... キャッシュを使用していないことに気付くまでは。 エージェントコーディングのコストは、プリフィルによって完全に支配されます。キャッシュヒット率が約90%の場合、Whaleのコストは1問題あたり約0.1ドルに低下します。
もちろん、DeepSeekは自社製のキャッシュを搭載しています。pass@5 70.2では、Opus 4.5と同等の性能をわずかなコストで実現しており、GPT 5.2と優れた設計のツールシステムに劣る程度です。これは、次世代のpass@1の限界値を示す指標となるでしょう。

