DeepSeek vient de sortir un nouveau modèle : le DeepSeek-V3.2-Speciale ! D'après les résultats, il s'agit d'une version optimisée de DeepSeek-V3.2-Exp. Le score AIME25 au test de mathématiques a atteint 99,2 %, un résultat exceptionnel. Le score SWE-Bench Verified a également atteint 73,1, ce qui reste inférieur aux 77,2 de claude-sonnet-4.5. Voici un résumé des points clés de cette version. Plus important encore, DeepSeek a implémenté son propre mécanisme d'attention parcimonieuse optimisé (l'attention parcimonieuse permet d'optimiser les contextes longs, offrant d'excellentes performances même dans les contextes extrêmement longs tout en économisant des ressources). La longueur native du contexte a été réduite à 163 Ko. Deuxièmement, je pense que le plus important est la synthèse de données à grande échelle pour les tâches des agents. La principale limitation à la vitesse d'évolution des grands modèles réside dans les données d'entraînement. Les données générées manuellement ne suffisent plus pour l'entraînement de ces modèles. DeepSeek a développé une méthode de synthèse automatique des données d'entraînement pour les tâches des agents, ce qui joue un rôle crucial dans l'amélioration rapide des performances des grands modèles. Ils ont également mentionné un cadre d'apprentissage par renforcement évolutif. Cependant, les détails précis ne figurent pas dans la description de la fiche du modèle. Leur rapport technique n'a pas encore été mis en ligne, mais je fournirai une interprétation détaillée dès qu'il le sera. Et je suis en train de le tester ! Je vous présenterai prochainement un test pratique des capacités de programmation de DeepSeek-V3.2-Speciale !
Paramètres de performance / 2
Paramètres de performance / 3











