Est-ce tendance de mettre à jour les grands modèles tous les mois ? Test du MiniMax-M2.1 en conditions réelles ! La demande de participation au test bêta du MiniMax-M2.1 a été approuvée. Voici les résultats des tests effectués sur le MiniMax M2.1 : Comparé au MiniMax-M2, ce test révèle des améliorations significatives en matière de programmation, de capacités de l'agent et de rappel de contexte long. Plus particulièrement, les capacités de l'agent et de rappel de contexte long sont nettement supérieures, justifiant pleinement l'appellation de MiniMax-M3. Lors d'un test de livraison de repas sur 24 heures et 300 tournées (où un modèle de grande taille utilise des outils pour effectuer des livraisons), le MiniMax M2.1 a généré 419,77 yuans, en effectuant 392 appels d'outils. Le test a exploité environ 56 % de l'espace contextuel, au sein duquel les appels d'outils ont donné de bons résultats. En comparaison, MiniMax M2 a généré un profit de 285,27 yuans, mais n'a utilisé que 32 % de l'espace de contexte avant d'interrompre les appels d'outils et de répéter sans cesse ce qui précède. Le MiniMax-M2.1 affiche un taux de rappel de 94 % dans un contexte de 192 Ko, contre seulement 52 % pour le MiniMax-M2. Cela représente une amélioration considérable. Plusieurs autres tests de compétences en programmation bien connus ont également montré des améliorations à des degrés divers. Ce nouveau modèle est particulièrement adapté aux tâches impliquant des agents à grande échelle ; ceux qui en ont besoin peuvent l’essayer. #MiniMax #MiniMaxM21 #ProgrammationIA #AgentIA #KCORES Arène de modélisation à grande échelle
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.