X (Twitter)

SOTA 중국 오픈소스(DeepSeek, Kimi K2 등)에 가까운 최초의 비사고 모델을 출시한 최초의 서구 연구소입니다. 추론 모델이 개발 중입니다. 가장 좋은 점은 멀티모달이라는 것입니다(DeepSeek이나 Kimi K2는 멀티모달이 아닙니다). 인상적인! 주의할 주요 사항: --------------------------- 1. 41B 활성 매개변수 및 675B 총 매개변수 2. 3000개의 H200으로 기초부터 훈련됨(DeepSeek 미세 조정 아님) 배포(단일 노드) --------------------------- FP8: 이 모델은 FP8의 지시 후 학습 버전으로, 지시 작업에 맞춰 미세 조정되어 채팅, 에이전트 및 지시 기반 사용 사례에 이상적입니다. 1. B200 또는 H200의 단일 노드에 있는 FP8. 2. H100 또는 A100의 단일 노드에 있는 NVFP4. https://t.co/82WKbULeOS

GDP at NeurIPS 2025(@bookwormengr)의 스레드

작성자 정보

스레드 내용