Mistral AI는 소규모(3B, 8B, 14B)부터 675B MoE 대규모 버전까지 다양한 오픈 소스 모델인 Mistral 3 시리즈를 출시했습니다. Mistral Large 3 - Mistral의 현존하는 가장 강력한 모델입니다. 아키텍처: 총 675B개의 매개변수(41B개의 활성화 매개변수)를 갖는 MoE 아키텍처를 채택하여 추론 효율성을 고려하면서도 매우 높은 성능을 보장하는 고급 설계를 적용했습니다. • 기능: 다국어 대화, 이미지 이해(멀티모달), 일반 지침 준수 측면에서 현재 오픈 소스 가중치의 최상위 수준에 도달했습니다. • 주요 특징: 거대한 모델이지만 NVIDIA 등의 파트너와의 협업을 통해 보다 쉬운 구축(단일 노드 운영 지원)을 위해 최적화되었습니다. 미니스트랄 3 시리즈 - 높은 비용 대비 성능 비율, 엣지 배포 · 포지셔닝: "높은 비용 대비 성능 비율"과 "엣지 배포"(노트북이나 로봇 등)에 중점을 둡니다. • 사양: 3B, 8B, 14B의 세 가지 매개변수 스케일이 포함됩니다. • 특징: 크기는 작지만 멀티모달(이미지 보기) 기능을 갖추고 있으며, 전용 추론 버전과 함께 출시되었습니다. 예를 들어, 14B의 추론 버전은 AIME '25 수학 경시 대회 수준 테스트에서 85%의 정확도를 달성했는데, 이는 작은 모델로서는 놀라운 성과입니다. 기술적 하이라이트 및 동향: 다중 모달리티 및 다중 언어주의의 완전한 수용 Mistral 3의 모든 모델은 더 이상 일반 텍스트에 국한되지 않고 이미지 인식을 기본적으로 지원합니다. 또한, 공식 문서에서는 영어가 아닌 언어(특히 다국어) 환경에서도 탁월한 성능을 발휘한다고 강조하는데, 이는 글로벌 비즈니스에 매우 중요합니다. • 추론 능력 분산화: 심층 추론 기능은 일반적으로 매우 큰 모델(예: OpenAI o1의 사고 체인)에서만 발견되지만 Mistral은 이 기능을 Ministral 3와 같은 더 작은 모델로 확장했습니다. 즉, 많은 특수 시나리오에서 더 이상 비용이 많이 드는 대규모 클라우드 기반 모델에 의존할 필요가 없습니다. • 생태계의 심층적 최적화: Mistral은 단순히 "삭제하고 잊어버리는" 방식이 아니라, NVIDIA, Red Hat, vLLM과 같은 거대 인프라 기업과 긴밀한 통합을 위해 협력했습니다. 예를 들어, Mistral은 특별히 최적화된 체크포인트를 출시하여 이러한 대규모 모델이 더 적은 하드웨어 리소스로 더 빠르게 실행될 수 있도록 했습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
