Desculpe, só temos o tamanho extra grande! Testado com GLM-4.7! Este teste abrangeu as capacidades de programação do GLM-4.7, as capacidades de Agent/ToolCall e as capacidades de recuperação de contexto longo, apresentando os resultados dos testes para o GLM 4.7 recém-lançado: O teste do entregador baseado em silício, que examina as capacidades do agente, consiste simplesmente em fazer com que um modelo de grande porte utilize ferramentas para simular um entregador recolhendo e entregando comida. O GLM 4.7 alcançou uma receita de 571,91 yuans em um teste extremo de entrega de comida de 24 horas e 300 rodadas, executando um total de 354 chamadas de ferramenta. O teste utilizou aproximadamente 50% do espaço de contexto e só parou de funcionar após ultrapassar 100 mil chamadas. O teste do agente alcançou um novo patamar de eficiência, graças à capacidade do modelo de iniciar múltiplas chamadas de ferramentas em uma única sessão, economizando tempo e permitindo a seleção da solução mais vantajosa. Em seguida, vem o Teste de Hogwarts, que avalia sua capacidade de recordar informações de contextos longos. Simplificando, ele testa sua habilidade de lembrar o contexto e responder a perguntas com precisão dentro de um contexto extenso. O GLM 4.7 alcançou uma taxa de recall de 91% a 100% para pedidos abaixo de 192 mil e de 95% para pedidos abaixo de 200 mil, demonstrando um excelente desempenho de recall. Por fim, analisando o teste de capacidade de programação, o principal destaque é a melhoria nos efeitos de partículas, na modelagem e na iluminação, especialmente o aprimoramento significativo nas capacidades espaciais. É claro que ainda existem problemas de desempenho e, espera-se, a próxima versão se concentrará na otimização do desempenho do código gerado. Em resumo, o GLM 4.7 representa uma melhoria significativa em todos os aspectos e certamente é adequado como modelo de programação principal. Ele alcançou desempenho de última geração (SOTA) em testes de programação como LMArena e SWE-bench. No entanto, devo dizer que durante os testes, notei que a velocidade da API era inconsistente, às vezes rápida e às vezes lenta. Será que isso acontece porque todos estão usando a nova versão? Espero que a equipe oficial adicione mais máquinas em breve. #GLM47 #ZhipuAI #ZhipuGLM #AIAgent #AIProgramming #LargeModel #OpenSource #KCORESLargeModelArena
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.