Je viens de consulter les derniers résultats des tests SWE-Benchverified, et le MiniMax-M2 est devenu le modèle open weight ayant obtenu le meilleur score ! Minimax M2 domine actuellement les modèles open source, grâce à ses puissantes capacités d'agent. Cependant, la documentation officielle indique que les tests ont consommé une quantité importante de jetons. Néanmoins, sa capacité à gérer des tâches longues est remarquable, conservant une stabilité même avec plus de 200 étapes. Deepseek v3.2 (version raisonnée) arrive en deuxième position, avec un prix incroyablement bas, malgré une certaine lenteur. Si vous n'êtes pas pressé, son rapport qualité-prix est imbattable. Vous pouvez obtenir d'excellents résultats en une centaine d'étapes. Le GLM 4.6 offre d'excellentes performances, alliant rapidité, prix abordable et performances optimales, ce qui en fait un choix de premier ordre en termes de rapport qualité-prix. Il est comparable au codeur qwen3 480b a35b, mais avec un temps de réponse nettement plus rapide. Globalement, les modèles open source progressent assez rapidement. Bien qu'ils restent en retrait par rapport aux modèles propriétaires tels que le Gemini 3 Pro et le Claude 4.5 Opus, ils rattrapent constamment les modèles commerciaux de pointe. #SWEBench #ÉvaluationAIE #GrandModèle #Minimax #RechercheProfonde #GLM #ModèleOpenSource #PerformanceAI #GénérationDeCode
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
