L'étape suivante consistait à générer un site web dynamique à partir d'un enregistrement d'écran. Lors de ce test, la reconnaissance optique de caractères (OCR) s'est avérée très performante : elle a pu reproduire le texte de la page web, mais pas les animations. Un entraînement ciblé semble donc nécessaire. L'étape suivante consistait à réaliser un test d'étiquetage d'objets à l'aide d'une image représentant une girafe et une antilope. Cette image a été soigneusement choisie en raison de ses nombreux éléments perturbateurs. Par exemple, la girafe de droite possède deux cous presque superposés, ce qui peut facilement induire en erreur. De plus, les deux antilopes situées en dessous sont masquées par la girafe, mais leurs têtes et leurs queues restent reliées ; si le modèle ne parvient pas à comprendre la structure corporelle des mammifères, il est susceptible de commettre des erreurs d'identification. Lors de ce test, la girafe a été parfaitement identifiée, mais une antilope a été manquée. Il s'agit d'une amélioration par rapport à la version précédente du GLM-4.5V, qui n'avait pas pu être utilisée pour ce test. L'étape suivante était le test de simulation de site web. Cependant, je pense que tout le monde est lassé des simulations de sites web classiques, j'ai donc augmenté la difficulté en utilisant des images d'une expérience chimique. Le GLM-4.6V a servi à modéliser et simuler cette expérience à l'aide de three.js. L'électrolyse de l'eau s'est déroulée sans problème ; tout, sauf la batterie, a été reproduit correctement. Puis est venue une scène plus complexe : le chauffage pour produire de l'oxygène. Le problème, c'est que tous les instruments expérimentaux ont été reproduits, mais leurs positions spatiales étaient incorrectes. Cependant, ce test est difficile même pour un modèle de tête de grande taille, donc ce résultat est compréhensible.
Enfin, il y a eu le test de connaissances. À partir d'une image de multimètre, le GLM-4.6V a été interrogé sur la manière dont un modèle de grande taille devait tester la capacité d'une batterie. Le GLM-4.6V a réussi ce test sans difficulté. C'est là un autre atout majeur du GLM-4.6V : un nombre suffisant de paramètres lui confère d'excellentes connaissances. Auparavant, lors des tests effectués avec le GLM-4.5V, celui-ci était même capable d'identifier les mains gagnantes au mah-jong. En résumé, comparée à la version GLM-4.5V sortie il y a quelques mois, cette version présente non seulement une amélioration continue des performances, permettant des tests auparavant impossibles, mais elle ajoute également des fonctionnalités Agent/MCP, permettant d'effectuer des tâches à l'aide d'outils et élargissant considérablement les scénarios d'application du modèle. Cependant, des améliorations supplémentaires sont nécessaires pour les scénarios de test complexes. Nous attendons avec impatience la prochaine mise à jour ! De plus, Zhipu a également inclus le GLM-4.6V dans le plan de codage GLM, et son prix est la moitié de celui du GLM-4.5V, ce qui rend les tâches de programmation multimodales beaucoup plus faciles à utiliser ! #GLM #GLM46V #ZhipuAI #VLM





