Test en conditions réelles de GLM-4.6V ! Que pouvez-vous faire avec un modèle volumineux grâce à ToolCall ? Voici un test en conditions réelles du GLM-4.6V ! Le GLM-4.6V prenant en charge les fonctionnalités Agent/MCP, nous avons élargi nos scénarios de test, notamment en écrivant du texte et des images à partir de PDF, en reconstituant des sites web à partir d’enregistrements d’écran et en reconnaissant des reçus de livraison de repas. Examinons directement les résultats des tests : Le premier test a été réalisé avec des tickets de caisse de plats à emporter. Plusieurs tickets ont été téléchargés, et le modèle a été sollicité pour calculer le contenu de l'addition, le montant dépensé et identifier les allergènes potentiels. Ce test a été concluant. Lors des tests suivants, les capacités de reconnaissance optique de caractères (OCR) du GLM-4.6V se sont également révélées être son atout majeur, prouvant ainsi son aptitude à gérer efficacement les scénarios de reconnaissance optique de caractères. Vient ensuite le test de l'agent de rapport visuel PDF, récemment mis à jour. Il consiste à importer un PDF ; le modèle utilise alors un agent de capture d'écran pour résumer son contenu et générer du texte enrichi intégrant des captures d'écran. Lors de ce test, l'IA a géré sans problème les PDF à mise en page simple, en extrayant correctement les images. Cependant, pour les PDF à format complexe, comme le magazine utilisé pour créer le modèle lors de ce test, elle génère simplement une image de la page entière au lieu d'extraire les images individuelles. #GLM #GLM46V #ZhipuAI #VLM #Zhipu
L'étape suivante consistait à générer un site web dynamique à partir d'un enregistrement d'écran. Lors de ce test, la reconnaissance optique de caractères (OCR) s'est avérée très performante : elle a pu reproduire le texte de la page web, mais pas les animations. Un entraînement ciblé semble donc nécessaire. L'étape suivante consistait à réaliser un test d'étiquetage d'objets à l'aide d'une image représentant une girafe et une antilope. Cette image a été soigneusement choisie en raison de ses nombreux éléments perturbateurs. Par exemple, la girafe de droite possède deux cous presque superposés, ce qui peut facilement induire en erreur. De plus, les deux antilopes situées en dessous sont masquées par la girafe, mais leurs têtes et leurs queues restent reliées ; si le modèle ne parvient pas à comprendre la structure corporelle des mammifères, il est susceptible de commettre des erreurs d'identification. Lors de ce test, la girafe a été parfaitement identifiée, mais une antilope a été manquée. Il s'agit d'une amélioration par rapport à la version précédente du GLM-4.5V, qui n'avait pas pu être utilisée pour ce test. L'étape suivante était le test de simulation de site web. Cependant, je pense que tout le monde est lassé des simulations de sites web classiques, j'ai donc augmenté la difficulté en utilisant des images d'une expérience chimique. Le GLM-4.6V a servi à modéliser et simuler cette expérience à l'aide de three.js. L'électrolyse de l'eau s'est déroulée sans problème ; tout, sauf la batterie, a été reproduit correctement. Puis est venue une scène plus complexe : le chauffage pour produire de l'oxygène. Le problème, c'est que tous les instruments expérimentaux ont été reproduits, mais leurs positions spatiales étaient incorrectes. Cependant, ce test est difficile même pour un modèle de tête de grande taille, donc ce résultat est compréhensible.
Enfin, il y a eu le test de connaissances. À partir d'une image de multimètre, le GLM-4.6V a été interrogé sur la manière dont un modèle de grande taille devait tester la capacité d'une batterie. Le GLM-4.6V a réussi ce test sans difficulté. C'est là un autre atout majeur du GLM-4.6V : un nombre suffisant de paramètres lui confère d'excellentes connaissances. Auparavant, lors des tests effectués avec le GLM-4.5V, celui-ci était même capable d'identifier les mains gagnantes au mah-jong. En résumé, comparée à la version GLM-4.5V sortie il y a quelques mois, cette version présente non seulement une amélioration continue des performances, permettant des tests auparavant impossibles, mais elle ajoute également des fonctionnalités Agent/MCP, permettant d'effectuer des tâches à l'aide d'outils et élargissant considérablement les scénarios d'application du modèle. Cependant, des améliorations supplémentaires sont nécessaires pour les scénarios de test complexes. Nous attendons avec impatience la prochaine mise à jour ! De plus, Zhipu a également inclus le GLM-4.6V dans le plan de codage GLM, et son prix est la moitié de celui du GLM-4.5V, ce qui rend les tâches de programmation multimodales beaucoup plus faciles à utiliser ! #GLM #GLM46V #ZhipuAI #VLM









