¿Cómo se compara Kimi-K2-Thinking con MiniMax M2? 1/n Ambos admiten llamadas a herramientas intercaladas. El MiniMax M2 le dará una dura batalla; se ha labrado su propio nicho de mercado. Cuenta con una ventana de contexto de 196.600 tokens. El modelo tiene un coste de 0,15 dólares por millón de tokens de entrada y de 0,45 dólares por millón de tokens de salida. Comparando con el siguiente gráfico, MiniMax M2 es literalmente un 75-80% más barato que Kimi-K2-Thinking. Pero la cosa se pone interesante al usar Kimi-K2-Thinking con caché y tener un contexto extenso y múltiples aciertos de caché. En ese caso, el precio de Kimi K2 para los tokens de entrada baja al nivel MinMax M2.
¿Cómo se compara el tamaño de la Kimi-K2-Thinking con el de la MiniMax M2? 2/n 1. MiniMax M2 tiene 10B parámetros activos y 230B parámetros totales con atención completa. 2. Kimi K2 tiene 35 mil millones de parámetros activos y 1 billón de parámetros totales. Ambos tienen la mayor parte de sus pesos en 8 bits. Eso significa que M2 será mucho más fácil de alojar y su caché KV será mucho más compacta. MiniMax M2 utiliza atención completa, sería interesante ver si Kimi-M2 ha hecho algo interesante con la capa de atención. (Para estos cálculos asumo que Kimi-K2-Thinking se basa en Kimi-K2-Base)
