Comment le Kimi-K2-Thinking se compare-t-il au MiniMax M2 en termes de taille ? 2/n 1. Le MiniMax M2 dispose de 10B actifs et de 230B paramètres au total avec une attention particulière. 2. Kimi K2 possède 35 milliards de paramètres actifs et 1 billion de paramètres au total. La plupart des poids des deux sont exprimés en 8 bits. Cela signifie que M2 sera beaucoup plus facile à héberger et que son cache KV sera beaucoup plus compact. MiniMax M2 utilise une attention totale ; il serait intéressant de voir si Kimi-M2 a apporté des modifications intéressantes à la couche d'attention. (Pour ces calculs, je suppose que Kimi-K2-Thinking est basé sur Kimi-K2-Base)
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.