Brutal. DeepSeek est tellement bon marché qu'il fait exploser le classement. Minimax M2 reste le grand favori du test officiel SWE-bench pour les modèles ouverts – à 214 $ pour l'évaluation complète, soit 200 $ de plus que la V3.2. Gain de 1 %. mais ces scores sont bien en dessous de la frontière – et l'évaluation du « cadre interne » de DS.
Comment diable peut-on rivalisergithub.com/SWE-agent/mini…o/g9OWg0Coze

