X (Twitter)

Premier laboratoire occidental à réussir à publier le premier modèle non-penseur proche de l'état de l'art des logiciels libres chinois (DeepSeek, Kimi K2, etc.). Un modèle de raisonnement est en cours d'élaboration. Son principal atout réside dans sa multimodalité (contrairement à DeepSeek et Kimi K2). Impressionnant! Points clés à retenir : --------------------------- 1. 41 milliards de paramètres actifs et 675 milliards de paramètres au total 2. Entraînement complet avec 3000 H200 (pas un réglage fin DeepSeek) Déploiement (nœud unique) --------------------------- FP8 : Ce modèle est la version post-entraînée d'instruction en FP8, affinée pour les tâches d'instruction, ce qui le rend idéal pour les cas d'utilisation basés sur le chat, les agents et les instructions. 1. FP8 sur un seul nœud de B200 ou H200. 2. NVFP4 sur un seul nœud de H100 ou A100. https://t.co/82WKbULeOS

Fil de GDP at NeurIPS 2025 (@bookwormengr)

Informations sur l'auteur

Contenu du fil