X (Twitter)

Les évaluations sont un peu bâclées, elles ne sont pas compatibles avec Terminus, elles extrapolent le score « réel » de l'agent de recherche alors qu'il dépasse le contexte pour plus de 20 % des cas de test, car elles réfléchissent encore trop… Mais en termes de direction, oui, c'est proche de SoTA.

« DeepSeek-V3.2-Speciale s'est classé 2e à l'ICPC WF 2025 et 10e à l'IOI 2025 ». 35/42 (c'est-à-dire partout sauf cette satanée 6e place) à l'IMO, 102/126 au CMO. Il intègre les puissances de Math-V2. Aucun outil, génération maximale de 128 000 jetons. Utilisation des jetons moins efficace que Gemini.

Fil de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Informations sur l'auteur

Contenu du fil