Sessão de perguntas e respostas com Kimi sobre o K2 Thinking: 1. O custo de treinamento de US$ 4,6 milhões não é um número oficial. 2. Treinado com H800s (H100s nerfados) 3. Híbridos KDA (Kimi Delta Attention) com MLA NoPE apresentam melhor desempenho do que MLA completo com RoPE. 4. O Muon se adapta bem aos parâmetros de 1T. "Existem dezenas de otimizadores e arquiteturas que não resistem ao teste." 5. Kimi K2 terá visão 6. O K2 Thinking é nativamente INT4 para ser mais amigável a GPUs que não sejam Blackwell, ao mesmo tempo que aproveita os kernels Marlin de inferência int4 existentes.
- “wen K3?” - “antes que o centro de dados de um trilhão de dólares do Sam sejreddit.com/r/LocalLLaMA/c… AMA: https://t.co/6yZSsjQXvM
