Luo Fuli, qui a rejoint Xiaomi après avoir quitté Deepseek, a également créé un compte Twitter, ce qui laisse penser qu'elle dirige le développement du nouveau modèle. Voici une brève présentation des caractéristiques techniques du modèle MiMo-V2-Flash publié hier soir par Xiaomi. Architecture : L’architecture SWA hybride (Hybrid Weighted Attention) est adoptée. Elle surpasse les autres schémas d’attention linéaire pour l’inférence de contexte long, et le cache KV fixe est plus adapté à l’infrastructure actuelle. La taille de fenêtre optimale est de 128 ; 512 réduit les performances ; les valeurs résiduelles doivent être conservées et ne peuvent être omises. Prédiction multi-jetons (MTP) : essentielle pour un apprentissage par renforcement efficace. Des longueurs d'acceptation élevées peuvent être obtenues avec un minimum d'ajustements au-delà de la première couche. Une MTP à 3 couches permet d'atteindre une longueur d'acceptation supérieure à 3 et une accélération d'environ 2,5x sur les tâches d'encodage, résolvant ainsi les problèmes de temps d'inactivité du GPU causés par les échantillons à longue traîne dans l'apprentissage par renforcement sur stratégie avec petits lots. Bien que non incluse dans cette boucle d'apprentissage par renforcement par manque de temps, elle s'y intègre parfaitement ; la MTP à 3 couches est open source, favorisant ainsi le développement communautaire. Après la formation MOPD : grâce à la distillation des politiques de Thinking Machine, plusieurs modèles d’apprentissage par renforcement sont fusionnés, ce qui permet des gains d’efficacité considérables. Comparé au processus SFT+RL standard, le coût de calcul est réduit de plus de 50 fois, tout en conservant les performances du modèle enseignant et en révélant une progression où les élèves s’auto-renforcent pour devenir de meilleurs enseignants. Il met l'accent sur l'ingénierie pratique et la compatibilité avec les lignes de production. L'architecture hybride SWA associée à un cache KV fixe améliore la gestion du contexte long et l'efficacité du déploiement ; MTP offre des avantages en matière de parallélisation de l'entraînement et de l'inférence ; MOPD réplique et intègre les capacités d'apprentissage par renforcement avec une puissance de calcul extrêmement faible.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
