X (Twitter)

Fiction.LiveBench a enfin été mis à jour ! Cette fois-ci, les résultats des tests de performance de rappel ont été mis à jour pour les modèles suivants : deepseek-v3.2-exp [raisonnement : élevé], deepseek-v3.2-exp, nemotron-nano-9b-v2:free, qwen-max et qwen3-next-80b-a3b-instruct. Ce qui m'a surpris, c'est que deepseek-v3.2-exp [raisonnement : élevé] ait atteint des performances quasi optimales, avec un rappel d'au moins 83 % pour des valeurs inférieures à 32 000. C'est le meilleur résultat jamais obtenu par deepseek. Cependant, les résultats pour des valeurs supérieures à 60 000 n'ont probablement pas été obtenus, aucun test n'ayant pu être réalisé. De plus, la nouvelle architecture de Qwen3-Next semble offrir des performances moyennes. Espérons que la prochaine version y remédiera. Mes modèles de taille moyenne préférés actuellement disponibles localement sont Qwen3-Next et Kimi-linear.

Fil de karminski-牙医 (@karminski3)

Informations sur l'auteur

Contenu du fil