Em seguida, foi realizado o teste de geração de um site dinâmico a partir de uma gravação de tela. Nesse teste, a capacidade de OCR foi muito boa; conseguiu reproduzir o texto da página, mas não as animações do texto. Estima-se que seja necessário um treinamento específico. Em seguida, foi realizado o teste de rotulagem de objetos, utilizando uma imagem com uma girafa e um antílope. Essa imagem foi cuidadosamente selecionada devido aos seus inúmeros elementos de distração. Por exemplo, a girafa à direita possui dois pescoços que quase se sobrepõem, facilitando a identificação incorreta. Além disso, os dois antílopes abaixo estão obscurecidos pela girafa, mas suas cabeças e caudas ainda estão conectadas; se o modelo não consegue compreender a estrutura corporal de mamíferos, ele fica propenso a erros de identificação. Neste teste, a girafa foi perfeitamente identificada, mas um dos antílopes não foi identificado. Isso representa uma melhoria em comparação com a versão anterior, GLM-4.5V, que não pôde ser executada neste teste. Em seguida, veio o teste de simulação do site. No entanto, acredito que todos estejam cansados das simulações tradicionais de sites, então desta vez aumentei a dificuldade usando imagens de um experimento químico. O modelo GLM-4.6V foi usado para modelar e simular o experimento químico com o three.js. O experimento de eletrólise da água foi bem-sucedido; tudo, exceto a bateria, foi reproduzido corretamente. Depois veio uma cena complexa: aquecimento para gerar oxigênio. O detalhe aqui é que todos os instrumentos experimentais foram reproduzidos, mas suas posições espaciais estavam incorretas. Contudo, este é um teste desafiador mesmo para um modelo de cabeça grande, então é compreensível.
Por fim, houve o teste de conhecimento. Dada uma imagem de multímetro, o GLM-4.6V foi questionado sobre como um modelo grande deveria testar a capacidade da bateria. Isso também não apresentou problemas para o GLM-4.6V. Esta é outra grande vantagem do GLM-4.6V: parâmetros suficientes resultam em excelente conhecimento. Anteriormente, durante testes com o GLM-4.5V, ele conseguiu até mesmo identificar mãos vencedoras no mahjong. Em resumo, comparada à versão GLM-4.5V de alguns meses atrás, esta versão não só demonstra uma melhoria contínua de desempenho, possibilitando testes antes impossíveis, como também adiciona funcionalidades de Agente/MCP, permitindo a execução de tarefas com o auxílio de ferramentas e expandindo consideravelmente os cenários de aplicação do modelo. Contudo, ainda são necessários aprimoramentos para cenários complexos em testes. Aguardamos ansiosamente a próxima atualização! Além disso, a Zhipu também incluiu o GLM-4.6V no Plano de Codificação GLM, e o preço é metade do preço do GLM-4.5V, tornando as tarefas de programação multimodal muito mais fáceis de usar! #GLM #GLM46V #ZhipuAI #VLM





