X (Twitter)

C'est bien que le poids soit ouvert, mais comparer les modèles denses et moe en ne considérant que le nombre total de paramètres est assez injuste ; si l'on considère les paramètres actifs au lieu du nombre total de paramètres, c'est une autre histoire : - GLM 4.6 (32B) : 74 % de moins - Minimax M2 (10B) : 92 % de moins - Pensée K2 (32B) : 74 % de moins - V3.2 (37B) : 70 % de moins La taille (totale ou active !) n'est pas le bon indicateur ici ; il faudrait un graphique similaire avec les performances sur vllm/sglang.

Fil de elie (@eliebakouch)

Informations sur l'auteur

Contenu du fil