X (Twitter)

Teste prático do GLM-4.6V! O que você pode fazer com um modelo grande usando o ToolCall? Aqui está um teste prático do GLM-4.6V! Como o GLM-4.6V suporta recursos de Agente/MCP, expandimos nossos cenários de teste, incluindo a escrita de texto e imagens usando PDFs, a reconstrução de sites usando gravações de tela e o reconhecimento de recibos de entrega de comida. Vamos analisar diretamente os resultados dos testes: O primeiro teste foi realizado com recibos de comida para viagem. Vários recibos foram carregados e o modelo foi solicitado a calcular o que foi consumido, quanto foi gasto e identificar possíveis alérgenos. Este teste foi aprovado com perfeição. Em testes subsequentes, os recursos de OCR do GLM-4.6V também se destacaram, comprovando sua capacidade de lidar com cenários de OCR. A seguir, temos o teste do agente de relatório visual em PDF recém-atualizado. Este teste envolve o upload de um PDF, e o modelo pode usar um agente de captura de tela para resumir o conteúdo do PDF e gerar texto formatado com as capturas de tela. Neste teste, a IA lidou com PDFs de layout simples sem problemas, extraindo as imagens com sucesso. No entanto, para PDFs com formatação complexa, como o PDF da revista usado para criar o modelo no meu teste, ela simplesmente gerou a página inteira como uma imagem, em vez de extrair as imagens individuais. #GLM #GLM46V #ZhipuAI #VLM #Zhipu

Em seguida, foi realizado o teste de geração de um site dinâmico a partir de uma gravação de tela. Nesse teste, a capacidade de OCR foi muito boa; conseguiu reproduzir o texto da página, mas não as animações do texto. Estima-se que seja necessário um treinamento específico. Em seguida, foi realizado o teste de rotulagem de objetos, utilizando uma imagem com uma girafa e um antílope. Essa imagem foi cuidadosamente selecionada devido aos seus inúmeros elementos de distração. Por exemplo, a girafa à direita possui dois pescoços que quase se sobrepõem, facilitando a identificação incorreta. Além disso, os dois antílopes abaixo estão obscurecidos pela girafa, mas suas cabeças e caudas ainda estão conectadas; se o modelo não consegue compreender a estrutura corporal de mamíferos, ele fica propenso a erros de identificação. Neste teste, a girafa foi perfeitamente identificada, mas um dos antílopes não foi identificado. Isso representa uma melhoria em comparação com a versão anterior, GLM-4.5V, que não pôde ser executada neste teste. Em seguida, veio o teste de simulação do site. No entanto, acredito que todos estejam cansados das simulações tradicionais de sites, então desta vez aumentei a dificuldade usando imagens de um experimento químico. O modelo GLM-4.6V foi usado para modelar e simular o experimento químico com o three.js. O experimento de eletrólise da água foi bem-sucedido; tudo, exceto a bateria, foi reproduzido corretamente. Depois veio uma cena complexa: aquecimento para gerar oxigênio. O detalhe aqui é que todos os instrumentos experimentais foram reproduzidos, mas suas posições espaciais estavam incorretas. Contudo, este é um teste desafiador mesmo para um modelo de cabeça grande, então é compreensível.

Por fim, houve o teste de conhecimento. Dada uma imagem de multímetro, o GLM-4.6V foi questionado sobre como um modelo grande deveria testar a capacidade da bateria. Isso também não apresentou problemas para o GLM-4.6V. Esta é outra grande vantagem do GLM-4.6V: parâmetros suficientes resultam em excelente conhecimento. Anteriormente, durante testes com o GLM-4.5V, ele conseguiu até mesmo identificar mãos vencedoras no mahjong. Em resumo, comparada à versão GLM-4.5V de alguns meses atrás, esta versão não só demonstra uma melhoria contínua de desempenho, possibilitando testes antes impossíveis, como também adiciona funcionalidades de Agente/MCP, permitindo a execução de tarefas com o auxílio de ferramentas e expandindo consideravelmente os cenários de aplicação do modelo. Contudo, ainda são necessários aprimoramentos para cenários complexos em testes. Aguardamos ansiosamente a próxima atualização! Além disso, a Zhipu também incluiu o GLM-4.6V no Plano de Codificação GLM, e o preço é metade do preço do GLM-4.5V, tornando as tarefas de programação multimodal muito mais fáceis de usar! #GLM #GLM46V #ZhipuAI #VLM

Thread de karminski-牙医 (@karminski3)

Informações do autor

Conteúdo da thread