Dans cette série, l'échelle est-elle respectée ? Le modèle 600m inédit m'a encore plus surpris comme base pour des modèles spécialisés.
Évaluations comparables à Qwen 3 600m mais avec le grand avantage de ne pas être surcuit sur 36T tokens : beaucoup plus de marge de manœuvre pour déplacer les probabilités de token.