Mistral AI ha lanzado la serie Mistral 3 de modelos de código abierto, que van desde la pequeña escala (3B, 8B, 14B) hasta la versión grande de 675B MoE. Mistral Large 3: El modelo más potente de Mistral hasta la fecha. Arquitectura: Adopta la arquitectura MoE con un total de 675 000 000 parámetros (41 000 000 de parámetros de activación), un diseño avanzado que garantiza un rendimiento extremadamente alto, considerando la eficiencia de inferencia. • Capacidades: Ha alcanzado el nivel máximo de peso del código abierto actual en diálogo multilingüe, comprensión de imágenes (multimodal) y cumplimiento de instrucciones generales. • Aspectos destacados: Aunque es un modelo gigante, se ha optimizado para una implementación más sencilla (compatible con la operación de un solo nodo) mediante la colaboración con socios como NVIDIA. Serie Ministral 3: alta relación costo-rendimiento, implementación en el borde · Posicionamiento: Se centra en la "alta relación costo-rendimiento" y la "implementación en el borde" (como computadoras portátiles o incluso robots). • Especificaciones: Incluye tres escalas de parámetros: 3B, 8B y 14B. • Características: A pesar de su pequeño tamaño, poseen capacidades multimodales (visualización de imágenes) y se han lanzado con una versión de inferencia dedicada. Por ejemplo, la versión de inferencia del 14B alcanzó una precisión del 85 % en la prueba de matemáticas de nivel competitivo de AIME '25, lo cual es notable para un modelo pequeño. Aspectos técnicos destacados y tendencias: Adopción plena de la multimodalidad y el multilingüismo Todos los modelos de Mistral 3 admiten la comprensión de imágenes de forma nativa, sin limitarse ya al texto sin formato. Además, la documentación oficial destaca específicamente su excelente rendimiento en entornos que no utilizan el inglés (especialmente en entornos multilingües), lo cual es crucial para los negocios globales. • Descentralizar la capacidad de razonamiento: Las capacidades de razonamiento profundo normalmente solo se encuentran en modelos muy grandes (como la cadena de pensamiento en OpenAI o1), pero Mistral ha extendido esta capacidad a modelos más pequeños como Ministral 3. Esto significa que en muchos escenarios especializados, ya no necesitamos depender de modelos costosos y grandes basados en la nube. • Optimización profunda del ecosistema: Mistral no se limitó a "eliminar y olvidar", sino que se asoció con gigantes de la infraestructura como NVIDIA, Red Hat y vLLM para lograr una integración profunda. Por ejemplo, lanzaron puntos de control especialmente optimizados, lo que permitió que estos grandes modelos se ejecutaran más rápido con menos recursos de hardware.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
