X (Twitter)

¿Cómo se compara el tamaño de la Kimi-K2-Thinking con el de la MiniMax M2? 2/n 1. MiniMax M2 tiene 10B parámetros activos y 230B parámetros totales con atención completa. 2. Kimi K2 tiene 35 mil millones de parámetros activos y 1 billón de parámetros totales. Ambos tienen la mayor parte de sus pesos en 8 bits. Eso significa que M2 será mucho más fácil de alojar y su caché KV será mucho más compacta. MiniMax M2 utiliza atención completa, sería interesante ver si Kimi-M2 ha hecho algo interesante con la capa de atención. (Para estos cálculos asumo que Kimi-K2-Thinking se basa en Kimi-K2-Base)

Hilo de GDP (@bookwormengr)

Información del autor

Contenido del hilo