Será que está na moda atualizar modelos grandes mensalmente? MiniMax-M2.1 em testes práticos! O pedido para o teste beta do MiniMax-M2.1 foi aprovado. Aqui estão os resultados dos testes do MiniMax M2.1: Em comparação com o MiniMax-M2, este teste demonstra melhorias significativas na programação, nas capacidades do agente e na capacidade de memorização de contextos longos. Em particular, as capacidades do agente e a capacidade de memorização de contextos longos são extremamente superiores, tornando justificável chamá-lo de MiniMax-M3. Em um teste de entrega de comida baseado em silício com duração de 24 horas e 300 rodadas (onde um modelo grande utiliza ferramentas para entregar comida), o MiniMax M2.1 obteve 419,77 yuans, executando um total de 392 chamadas de ferramentas. O teste utilizou aproximadamente 56% do espaço de contexto, dentro do qual as chamadas de ferramentas tiveram um bom desempenho. Em comparação, o MiniMax M2 gerou um lucro de 285,27 yuans, mas utilizou apenas 32% do espaço de contexto antes de interromper as chamadas de ferramentas e repetir repetidamente o processo descrito acima. O MiniMax-M2.1 apresenta uma taxa de recuperação de 94% em um contexto de 192K, em comparação com apenas 52% do MiniMax-M2. Isso representa uma melhoria impressionante. Diversos outros testes de habilidades de programação também demonstraram diferentes graus de melhoria. Este novo modelo é particularmente adequado para tarefas de agentes em larga escala; aqueles que têm essas necessidades podem experimentá-lo. #MiniMax #MiniMaxM21 #Codificação de IA #aiagent #KCORES arena de modelos grandes
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.