A Mistral AI lançou a série Mistral 3 de modelos de código aberto, que variam de pequena escala (3B, 8B, 14B) até a versão grande MoE de 675B. Mistral Large 3 - O modelo mais poderoso da Mistral até o momento. Arquitetura: Adota a arquitetura MoE com um total de 675 bilhões de parâmetros (41 bilhões de parâmetros de ativação), um design avançado que garante desempenho extremamente alto, levando em consideração também a eficiência de inferência. • Capacidades: Atingiu o nível máximo de relevância atual entre os softwares de código aberto em diálogo multilíngue, compreensão de imagens (multimodal) e conformidade com instruções gerais. • Destaques: Apesar de ser um modelo de grande porte, ele foi otimizado para facilitar a implantação (com suporte à operação em nó único) por meio da colaboração com parceiros como a NVIDIA. Ministral Série 3 - Alta relação custo-benefício, implantação na borda · Posicionamento: Foca em "alta relação custo-benefício" e "implantação na borda" (como em laptops ou até mesmo robôs). • Especificações: Inclui três escalas de parâmetros: 3B, 8B e 14B. • Características: Apesar do seu tamanho reduzido, ainda possuem capacidades multimodais (visualização de imagens) e foram lançadas com uma versão dedicada à inferência. Por exemplo, a versão de inferência do modelo 14B alcançou uma precisão de 85% no teste de nível de competição matemática AIME '25, o que é notável para um modelo pequeno. Destaques e tendências técnicas: Adoção plena da multimodalidade e do multilinguismo Todos os modelos do Mistral 3 oferecem suporte nativo à compreensão de imagens, não se limitando mais a texto simples. Além disso, a documentação oficial enfatiza especificamente seu desempenho superior em ambientes que não utilizam o inglês (especialmente em ambientes multilíngues), o que é crucial para negócios globais. • Descentralizar a capacidade de raciocínio: As capacidades de raciocínio profundo normalmente são encontradas apenas em modelos muito grandes (como a cadeia de pensamento do OpenAI o1), mas o Mistral estendeu essa capacidade para modelos menores, como o Mistral 3. Isso significa que, em muitos cenários especializados, não precisamos mais depender de modelos caros e de grande porte baseados em nuvem. • Otimização profunda do ecossistema: A Mistral não se limitou a "eliminar e esquecer", mas sim a estabelecer parcerias com gigantes da infraestrutura como NVIDIA, Red Hat e vLLM para uma integração profunda. Por exemplo, lançaram checkpoints especialmente otimizados, permitindo que esses grandes modelos fossem executados mais rapidamente com menos recursos de hardware.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
