Mistral AI 發表Mistral 3 系列開源模型,從3B、8B、14B 小規模到675B MoE Large 版本 Mistral Large 3 - Mistral 目前最強的模型· 架構:採用MoE 架構,總參數高達675B(激活參數41B),這是一種在保證極高性能的同時兼顧推理效率的先進設計。 · 能力:在多語言對話、圖像理解(多模態)以及通用指令遵循上達到了目前開源權重的頂尖水平。 · 亮點:雖然是巨型模型,但透過與NVIDIA 等夥伴的合作,它被優化得更易於部署(支援單節點運行)。 Ministral 3 系列- 高性價比、端側部署· 定位:主打「高性價比」和「端側部署」(如筆記型電腦、甚至機器人)。 · 規格:包含3B、8B、14B 三種參數規模。 · 特色:儘管體積小,但它們同樣具備多模態(看圖)能力,並專門發布了推理版本。例如14B 的推理版在數學競賽等級測驗(AIME '25)中準確率達到了85%,這對於小模型來說是非常驚人的。 技術亮點與趨勢解讀· 全面擁抱「多模態」與「多語言」: Mistral 3 的所有模型都原生支援圖像理解,不再局限於純文字。同時,官方特別強調了其在非英語(尤其是多語言環境)下的卓越表現,這對於全球化業務非常關鍵。 · 推理能力下放: 通常只有超大模型才具備深度推理能力(如類似OpenAI o1 的思維鏈),但Mistral 將這種能力下放到了Ministral 3 這樣的小模型上。這意味著在許多專業場景下,我們不再必須依賴昂貴的雲端大模型。 · 生態系的深度最佳化: Mistral 並沒有“管殺不管埋”,而是聯合了NVIDIA、Red Hat 和vLLM 等基礎設施巨頭進行深度適配。例如,他們發布了專門優化的檢查點,使得這些大模型可以在更少的硬體資源上跑得更快。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
