Il est très respectable de la part de Meituan non seulement de développer un nouveau benchmark mathématique difficile, mais aussi d'annoncer sa défaite face à 2 de ses concurrents open source (DS et Qwen ; la réflexion K2 devrait confirmer la place de Kimi dans ce club des maîtres des données). Au fait, je répète que LongCat est un modèle vraiment génial.
DeepSeek a enregistré des gains *significatifs* en termes de score MAF lors des deux mises à jour majeures de ses modèles de raisonnement (R1 <<< R1-0528 << V3.1). Je suppose que la version V3.2-exp est identique à la version V3.1. Ceux qui les rejettent se trompent lourdement.

