Kimi AMA en K2 Thinking: 1. El costo de capacitación de $4.6 millones no es una cifra oficial. 2. Entrenado en H800 (H100 debilitados) 3. Los híbridos KDA (Kimi Delta Attention) con NoPE MLA tienen un mejor rendimiento que los MLA completos con RoPE. 4. Muon se adapta bien a parámetros de 1T. “Hay decenas de optimizadores y arquitecturas que no resisten la prueba”. 5. Kimi K2 tendrá visión 6. K2 Thinking es nativo INT4 para ser más amigable con las GPU que no son Blackwell, al tiempo que aprovecha los kernels de inferencia int4 existentes de Marlin.
- “¿Cuándo K3?” —“antes de que se construya el centro de datos de un billón dereddit.com/r/LocalLLaMA/c…nlace AMA: https://t.co/6yZSsjQXvM
