X (Twitter)

La version 3.2 est le meilleur modèle ouvert sur SWE-Rebench, mais de justesse, et pas le plus rentable… jusqu'à ce que vous réalisiez qu'ils n'ont pas utilisé de système de cache pour cela. Les coûts de la programmation multi-agents sont entièrement déterminés par le préremplissage. Avec un taux de réussite du cache d'environ 90 %, le coût de Whale chuterait à environ 0,1 $ par problème.

Bien sûr, DeepSeek utilise la mise en cache. Avec un taux de passage à 5 passes de 70,2, ses performances restent équivalentes à celles d'Opus 4.5 pour un coût infime, et seuls GPT 5.2 et les systèmes d'outils bien conçus le surpassent réellement. Cela devrait vous donner une idée du potentiel de la prochaine génération en matière de taux de passage à 1.

Fil de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Informations sur l'auteur

Contenu du fil