Qual a diferença de tamanho entre o Kimi-K2-Thinking e o MiniMax M2? 2/n 1. O MiniMax M2 possui 10B de parâmetros ativos e 230B de parâmetros totais com atenção completa. 2. O Kimi K2 possui 35 bilhões de parâmetros ativos e 1 trilhão de parâmetros totais. Ambos têm a maior parte de seus pesos em 8 bits. Isso significa que o M2 será muito mais fácil de hospedar e seu cache KV será muito mais compacto. O MiniMax M2 utiliza atenção completa; seria interessante verificar se o Kimi-M2 implementou alguma alteração interessante na camada de atenção. (Para esses cálculos, estou assumindo que Kimi-K2-Thinking é baseado em Kimi-K2-Base)
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.