Les évaluations sont un peu bâclées, elles ne sont pas compatibles avec Terminus, elles extrapolent le score « réel » de l'agent de recherche alors qu'il dépasse le contexte pour plus de 20 % des cas de test, car elles réfléchissent encore trop… Mais en termes de direction, oui, c'est proche de SoTA.
« DeepSeek-V3.2-Speciale s'est classé 2e à l'ICPC WF 2025 et 10e à l'IOI 2025 ». 35/42 (c'est-à-dire partout sauf cette satanée 6e place) à l'IMO, 102/126 au CMO. Il intègre les puissances de Math-V2. Aucun outil, génération maximale de 128 000 jetons. Utilisation des jetons moins efficace que Gemini.


