X (Twitter)

Comment le Kimi-K2-Thinking se compare-t-il au MiniMax M2 en termes de taille ? 2/n 1. Le MiniMax M2 dispose de 10B actifs et de 230B paramètres au total avec une attention particulière. 2. Kimi K2 possède 35 milliards de paramètres actifs et 1 billion de paramètres au total. La plupart des poids des deux sont exprimés en 8 bits. Cela signifie que M2 sera beaucoup plus facile à héberger et que son cache KV sera beaucoup plus compact. MiniMax M2 utilise une attention totale ; il serait intéressant de voir si Kimi-M2 a apporté des modifications intéressantes à la couche d'attention. (Pour ces calculs, je suppose que Kimi-K2-Thinking est basé sur Kimi-K2-Base)

Fil de GDP (@bookwormengr)

Informations sur l'auteur

Contenu du fil