¿Es tendencia actualizar los modelos grandes mensualmente? ¡MiniMax-M2.1 en pruebas reales! Se ha aprobado la solicitud para la prueba beta del MiniMax-M2.1. Estos son los resultados de la prueba del MiniMax M2.1: En comparación con el MiniMax-M2, esta prueba muestra mejoras significativas en la programación, las capacidades del agente y la recuperación de contextos largos. En particular, las capacidades del agente y la recuperación de contextos largos son considerablemente superiores, por lo que no es exagerado llamarlo MiniMax-M3. En una prueba de 24 horas con un repartidor de silicio de 300 rondas (donde un modelo grande solicita herramientas para entregar comida), el MiniMax M2.1 obtuvo 419,77 yuanes, ejecutando un total de 392 solicitudes de herramientas. La prueba utilizó aproximadamente el 56 % del espacio de contexto, dentro del cual las solicitudes de herramientas tuvieron un buen rendimiento. En comparación, MiniMax M2 generó una ganancia de 285,27 yuanes, pero solo utilizó el 32% del espacio de contexto antes de detener las llamadas a herramientas y repetir repetidamente lo anterior. El MiniMax-M2.1 cuenta con una tasa de recuperación del 94 % en un contexto de longitud de 192 K, en comparación con solo el 52 % del MiniMax-M2. Esto representa una mejora significativa. Varias otras pruebas de habilidades de programación conocidas también han mostrado distintos grados de mejora. Este nuevo modelo es especialmente adecuado para tareas de agentes a gran escala; quienes tengan estas necesidades pueden probarlo. #MiniMax #MiniMaxM21 #codificación de IA #aiagent #KCORES arena de modelos grandes
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.