X (Twitter)

V3.2 は SWE-Rebench 上で最高のオープンモデルですが、わずかに優れており、最もコスト効率が良いわけではありません... キャッシュを使用していないことに気付くまでは。エージェントコーディングのコストは、プリフィルによって完全に支配されます。キャッシュヒット率が約90%の場合、Whaleのコストは1問題あたり約0.1ドルに低下します。

もちろん、DeepSeekは自社製のキャッシュを搭載しています。pass@5 70.2では、Opus 4.5と同等の性能をわずかなコストで実現しており、GPT 5.2と優れた設計のツールシステムに劣る程度です。これは、次世代のpass@1の限界値を示す指標となるでしょう。

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)（@teortaxesTex）のスレッド

作者情報

スレッド内容