X (Twitter)

Zhipu vient de publier en open source GLM-4.6V, dont la principale fonctionnalité est de transformer « l'interprétation d'images » en « l'action basée sur les images ». Auparavant, les modèles multimodaux décrivaient principalement le contenu des images. GLM-4.6V intègre directement les appels d'outils au modèle visuel, l'image elle-même servant de paramètre de commande. Par exemple, à partir d'une photo de rue, il appelle automatiquement une API de recherche d'images/comparaison de prix et renvoie un guide d'achat contenant des informations sur la source, le prix, la vignette du produit, le degré de correspondance et les différences, ainsi que des liens d'achat. Il dispose également d'une fonction de réplication front-end ; à partir d'une ébauche de conception, il peut générer un code HTML/CSS/JS de haute qualité et d'une précision pixel parfaite, prenant en charge plusieurs cycles de mise au point via des captures d'écran. Deux versions : GLM-4.6V (106B-A12B), version cloud haute performance GLM-4.6V-Flash (9B), version locale à faible latence, utilisation gratuite. La prise en charge de 128 000 éléments visuels revient à intégrer un rapport financier complet, un jeu vidéo entier ou un manuel d’utilisation complet dans un seul fichier. Elle permet également des comparaisons et des synthèses entre pages et caméras, vous évitant ainsi de multiplier les captures d’écran et la saisie de données par segments. Le prix de GLM-4.6V est 50 % inférieur à celui de GLM-4.5V. Le coût d'un appel API est de 1 yuan par million de jetons en entrée et de 3 yuans par million de jetons en sortie. #GLM46V #SmartSpectrumGLM

GitHub github.com/zai-org/GLM-VD1 Visage câlhuggingface.co/collections/za…tlnP1 modelscope.cn/collections/GL…s://t.co/z.ai/blog/glm-4.6vque : https://t.co/HZ3N348sYA

Fil de AIGCLINK (@aigclink)

Informations sur l'auteur

Contenu du fil