Comment Kimi-K2-Thinking se compare-t-il à MiniMax M2 ? 1/n Les deux prennent en charge l'appel d'outils entrelacés Le MiniMax M2 va lui donner du fil à retordre – il s'est créé son propre créneau. Il dispose d'une fenêtre de contexte de 196 600 jetons. Le modèle coûte 0,15 $ par million de jetons en entrée et 0,45 $ par million de jetons en sortie. Si on compare avec le tableau ci-dessous, le MiniMax M2 est littéralement 75 à 80 % moins cher que le Kimi-K2-Thinking. Mais les choses deviennent intéressantes lorsqu'on utilise Kimi-K2-Thinking avec la mise en cache, avec un contexte long et de multiples accès au cache. Le prix Kimi-K2 des jetons d'entrée chute alors au niveau MinMax M2.
Comment le Kimi-K2-Thinking se compare-t-il au MiniMax M2 en termes de taille ? 2/n 1. Le MiniMax M2 dispose de 10B actifs et de 230B paramètres au total avec une attention particulière. 2. Kimi K2 possède 35 milliards de paramètres actifs et 1 billion de paramètres au total. La plupart des poids des deux sont exprimés en 8 bits. Cela signifie que M2 sera beaucoup plus facile à héberger et que son cache KV sera beaucoup plus compact. MiniMax M2 utilise une attention totale ; il serait intéressant de voir si Kimi-M2 a apporté des modifications intéressantes à la couche d'attention. (Pour ces calculs, je suppose que Kimi-K2-Thinking est basé sur Kimi-K2-Base)
