X (Twitter)

Es mucho más de lo que parece a simple vista: KIMI-2-Thinking QAT. También tiene que ver con la compatibilidad con más chips de IA chinos. No te pierdas el excelente blog que aparece a continuación sobre por qué Kimi (Moonshot AI) eligió QAT (entrenamiento con reconocimiento de cuantización). Aquí tienes mi opinión. TL;DR: No solo reduce la latencia para la inferencia y los requisitos de memoria en escenarios con limitaciones de memoria (como ocurre con MoE con la escala de dispersión de Kimi-2) y acelera el entrenamiento de RL en un 10-20%; también permite ecosistemas de hardware alternativos como Cambricon y Ascend de Huawei debido al formato INT4. Citas del blog: ================= 1) ¿Por qué INT4 y no MXFP4? Kimi eligió INT4 en lugar de los "más sofisticados" MXFP4/NVFP4 para brindar un mejor soporte a las GPU que no son Blackwell, con un sólido soporte de kernel existente (por ejemplo, Marlin). 2) Los pesos de Kimi-2-Thinking son de 4 bits y las activaciones son de 16 bits (denotado como W4A16). Además, afirman que W4A8 e incluso W4A4 están a la vuelta de la esquina. A medida que se lancen nuevos chips con operadores nativos de FP4, la estrategia de cuantización de Kimi seguirá evolucionando. Compatibilidad con INT4 en chips fabricados en China: ================= Las GPU Cambricon admiten explícitamente la cuantización INT4, incluso para cargas de trabajo de inferencia de IA, como se ve en varios modelos como MLU270, MLU370-X8 y chips más nuevos, así como en versiones recientes de código abierto con integración de INT4 para modelos grandes como GLM-4.6. Las NPU Huawei Ascend también admiten la cuantización INT4 para la inferencia, como lo confirma la documentación y las versiones del kernel relacionadas con GEMM y las implementaciones de modelos cuantizados.

Hilo de GDP (@bookwormengr)

Información del autor

Contenido del hilo