Mistral AI a publié la série Mistral 3 de modèles open-source, allant de la petite échelle (3B, 8B, 14B) à la version MoE Large de 675B. Mistral Large 3 – Le modèle le plus puissant de Mistral à ce jour. Architecture : Il adopte l’architecture MoE avec un total de 675 milliards de paramètres (41 milliards de paramètres d’activation), une conception avancée qui garantit des performances extrêmement élevées tout en optimisant l’efficacité de l’inférence. • Capacités : Il a atteint le plus haut niveau de poids actuel des logiciels libres en matière de dialogue multilingue, de compréhension d'images (multimodale) et de conformité aux instructions générales. • Points forts : Bien qu'il s'agisse d'un modèle géant, il a été optimisé pour un déploiement plus facile (prise en charge du fonctionnement sur un seul nœud) grâce à une collaboration avec des partenaires tels que NVIDIA. Série Ministral 3 - Rapport coût-performance élevé, déploiement en périphérie · Positionnement : Axé sur un « rapport coût-performance élevé » et un « déploiement en périphérie » (tels que des ordinateurs portables, voire des robots). • Spécifications : Comprend trois échelles de paramètres : 3B, 8B et 14B. • Caractéristiques : Malgré leur petite taille, ces modèles possèdent des capacités multimodales (visualisation d’images) et sont disponibles avec une version dédiée à l’inférence. Par exemple, la version d’inférence du modèle 14B a atteint une précision de 85 % au test de niveau compétition mathématique AIME 25, ce qui est remarquable pour un modèle aussi petit. Points saillants et tendances techniques : L’adoption pleine et entière de la multimodalité et du multilinguisme Tous les modèles de Mistral 3 prennent en charge nativement la reconnaissance d'images, et non plus seulement le texte brut. De plus, la documentation officielle souligne ses performances supérieures dans les environnements non anglophones (notamment multilingues), un atout essentiel pour les entreprises internationales. • Décentralisation de la capacité de raisonnement : Les capacités de raisonnement profond ne se trouvent généralement que dans de très grands modèles (comme la chaîne de pensée d'OpenAI o1), mais Mistral a étendu cette capacité à des modèles plus petits comme Mistral 3. Cela signifie que dans de nombreux scénarios spécialisés, nous n'avons plus besoin de nous appuyer sur des modèles coûteux et volumineux basés sur le cloud. • Optimisation en profondeur de l’écosystème : Mistral n'a pas opté pour une approche passive, mais a noué des partenariats avec des géants de l'infrastructure tels que NVIDIA, Red Hat et vLLM pour une intégration poussée. Par exemple, l'entreprise a publié des points de contrôle optimisés, permettant à ces modèles complexes de s'exécuter plus rapidement avec moins de ressources matérielles.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
