A Zhipu acaba de disponibilizar o código aberto do GLM-4.6V, cuja principal funcionalidade é transformar a "interpretação de imagens" em "ação baseada em imagens". No passado, os modelos multimodais descreviam principalmente o conteúdo da imagem. O GLM-4.6V integra diretamente as chamadas de ferramentas ao modelo visual, com a própria imagem servindo como parâmetro de comando. Por exemplo, dada uma foto de rua, o sistema chama automaticamente uma API de busca de imagens/comparação de preços e retorna um guia de compras com informações sobre a origem, preço, miniatura do produto, grau de correspondência e diferenças, além de links para compra. Possui também replicação de front-end; a partir de um esboço de design, pode gerar código HTML/CSS/JS de alta qualidade e com precisão de pixels, permitindo múltiplas rodadas de ajustes finos por meio de capturas de tela. Duas versões: GLM-4.6V (106B-A12B), Versão de Nuvem de Alto Desempenho GLM-4.6V-Flash (9B), versão local de baixa latência, uso gratuito. Suportar contexto visual de 128k é como colocar um relatório financeiro inteiro, um jogo inteiro ou um manual de instruções completo em um único arquivo. Também permite comparações e resumos entre páginas e câmeras, poupando o trabalho de tirar capturas de tela repetidamente e inserir dados em segmentos. O preço do GLM-4.6V é 50% menor que o do GLM-4.5V. O preço da chamada da API é de 1 yuan por milhão de tokens para entrada e 3 yuans por milhão de tokens para saída. #GLM46V #SmartSpectrumGLM
GitHub:github.com/zai-org/GLM-V1 Abraço facihuggingface.co/collections/za…lnP1 modelscope.cn/collections/GL…//t.co/jQz.ai/blog/glm-4.6v https://t.co/HZ3N348sYA