Mistral 社は、Mistral 3 と、画像理解と多言語対話に優れた最も強力な超大型 MoE である Mistral Large 3 をリリースしました。 ミストラル ラージ 3、合計パラメータ 675B、アクティベーション 41B、ベース重みと指示重みを同時にリリースします。推論バージョンは後でリリースされます。 NVFP4 圧縮形式を提供し、8×A100/H100 または Blackwell NVL72 を搭載した単一ノードで高効率推論を可能にし、TensorRT-LLM、SGLang、プリフィル/デコード分離、投機的デコードなどをサポートします。 Ministral 3シリーズには3つのモデルがあります。 3B、8B、14B モデルにはそれぞれ、ベース、指示、推論の 3 つのバリエーションがあり、すべてイメージ入力をサポートしています。 このクラスでは最高の価格対性能比を提供し、パフォーマンスは類似モデルに匹敵しながら、生成されるトークンの数は桁違いに少なくなります。 推論バージョンでは、14B で 85% AIME '25 を達成できます。 #ミストラル3 #ミストラルラージ3
ブログmistral.ai/news/mistral-3mA huggingface.co/collections/mi…gF3J


