X (Twitter)

Mistral AI 發表Mistral 3 系列開源模型，從3B、8B、14B 小規模到675B MoE Large 版本 Mistral Large 3 - Mistral 目前最強的模型· 架構：採用MoE 架構，總參數高達675B（激活參數41B），這是一種在保證極高性能的同時兼顧推理效率的先進設計。 · 能力：在多語言對話、圖像理解（多模態）以及通用指令遵循上達到了目前開源權重的頂尖水平。 · 亮點：雖然是巨型模型，但透過與NVIDIA 等夥伴的合作，它被優化得更易於部署（支援單節點運行）。 Ministral 3 系列- 高性價比、端側部署· 定位：主打「高性價比」和「端側部署」（如筆記型電腦、甚至機器人）。 · 規格：包含3B、8B、14B 三種參數規模。 · 特色：儘管體積小，但它們同樣具備多模態（看圖）能力，並專門發布了推理版本。例如14B 的推理版在數學競賽等級測驗（AIME '25）中準確率達到了85%，這對於小模型來說是非常驚人的。技術亮點與趨勢解讀· 全面擁抱「多模態」與「多語言」： Mistral 3 的所有模型都原生支援圖像理解，不再局限於純文字。同時，官方特別強調了其在非英語（尤其是多語言環境）下的卓越表現，這對於全球化業務非常關鍵。 · 推理能力下放：通常只有超大模型才具備深度推理能力（如類似OpenAI o1 的思維鏈），但Mistral 將這種能力下放到了Ministral 3 這樣的小模型上。這意味著在許多專業場景下，我們不再必須依賴昂貴的雲端大模型。 · 生態系的深度最佳化： Mistral 並沒有“管殺不管埋”，而是聯合了NVIDIA、Red Hat 和vLLM 等基礎設施巨頭進行深度適配。例如，他們發布了專門優化的檢查點，使得這些大模型可以在更少的硬體資源上跑得更快。

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容