X (Twitter)

Primer laboratorio occidental que logra lanzar el primer modelo no pensante cercano al código abierto chino SOTA (DeepSeek, Kimi K2, etc.). El modelo de razonamiento está en desarrollo. Lo mejor es que es multimodal (DeepSeek y Kimi K2 no lo son). ¡Impresionante! Aspectos clave a tener en cuenta: --------------------------- 1. 41B parámetros activos y 675B parámetros totales 2. Entrenado desde cero con 3000 H200 (no es un ajuste fino de DeepSeek) Implementación (nodo único) --------------------------- FP8: Este modelo es la versión post-entrenada de instrucciones en FP8, optimizada para tareas de instrucción, lo que la hace ideal para casos de uso basados en chat, agencia e instrucción. 1. FP8 en un solo nodo de B200s o H200s. 2. NVFP4 en un solo nodo de H100s o A100s. https://t.co/82WKbULeOS

Hilo de GDP at NeurIPS 2025 (@bookwormengr)

Información del autor

Contenido del hilo