Como o Kimi-K2-Thinking se compara ao MiniMax M2? 1/n Ambos suportam chamadas de ferramentas intercaladas O MiniMax M2 vai dar-lhe uma luta difícil - criou o seu próprio nicho de mercado. A estrutura apresenta uma janela de contexto de 196,6 mil tokens. O modelo custa US$ 0,15 por milhão de tokens de entrada e US$ 0,45 por milhão de tokens de saída. Comparando com o gráfico abaixo, o MiniMax M2 é literalmente 75-80% mais barato que o Kimi-K2-Thinking. Mas as coisas ficam interessantes quando você usa o pensamento Kimi-K2 com cache e tem um contexto longo e múltiplos acessos ao cache. Nesse caso, o preço do Kimi K2 para tokens de entrada cai para o nível MinMax M2.
Qual a diferença de tamanho entre o Kimi-K2-Thinking e o MiniMax M2? 2/n 1. O MiniMax M2 possui 10B de parâmetros ativos e 230B de parâmetros totais com atenção completa. 2. O Kimi K2 possui 35 bilhões de parâmetros ativos e 1 trilhão de parâmetros totais. Ambos têm a maior parte de seus pesos em 8 bits. Isso significa que o M2 será muito mais fácil de hospedar e seu cache KV será muito mais compacto. O MiniMax M2 utiliza atenção completa; seria interessante verificar se o Kimi-M2 implementou alguma alteração interessante na camada de atenção. (Para esses cálculos, estou assumindo que Kimi-K2-Thinking é baseado em Kimi-K2-Base)
