A continuación, se realizó la prueba de generación de un sitio web dinámico a partir de una grabación de pantalla. En esta prueba, la capacidad de OCR fue muy buena; pudo reproducir el texto de la página web, pero no las animaciones. Se estima que se requiere capacitación específica. A continuación, se realizó la prueba de etiquetado de objetos, utilizando una imagen con una jirafa y un antílope. Esta imagen se seleccionó cuidadosamente debido a sus numerosos distractores. Por ejemplo, la jirafa de la derecha tiene dos cuellos que casi se superponen, lo que facilita una identificación errónea. Además, los dos antílopes de abajo están ocultos por la jirafa, pero sus cabezas y colas siguen conectadas; si el modelo no puede comprender la estructura corporal de los mamíferos, es propenso a la identificación errónea. En esta prueba, la jirafa se identificó perfectamente, pero se omitió un antílope. Esto supone una mejora con respecto al GLM-4.5V anterior, que no se pudo realizar en esta prueba. A continuación, se realizó la prueba de simulación del sitio web. Sin embargo, creo que todos están cansados de las simulaciones tradicionales de sitios web, así que esta vez incrementé la dificultad usando imágenes de un experimento químico. Se utilizó el GLM-4.6V para modelar y simular el experimento químico con three.js. El experimento de electrólisis del agua se realizó correctamente; todo, excepto la batería, se reprodujo correctamente. Luego vino una escena compleja: el calentamiento para generar oxígeno. El detalle es que se reprodujeron todos los instrumentos experimentales, pero sus posiciones espaciales eran incorrectas. Sin embargo, esta es una prueba difícil incluso para un modelo de cabeza grande, así que es comprensible.
Finalmente, se realizó la prueba de conocimientos. Dada la imagen de un multímetro, se le preguntó al GLM-4.6V cómo un modelo grande debería comprobar la capacidad de la batería. Esto tampoco fue un problema para el GLM-4.6V. Esta es otra gran ventaja del GLM-4.6V: unos parámetros suficientes resultan en un excelente conocimiento. Anteriormente, durante las pruebas con el GLM-4.5V, incluso podía identificar manos ganadoras en mahjong. En resumen, en comparación con GLM-4.5V de hace unos meses, esta versión no solo muestra una mejora continua del rendimiento, lo que permite realizar pruebas que antes eran imposibles, sino que también añade capacidades de Agente/MCP, lo que permite realizar tareas mediante herramientas, ampliando considerablemente los escenarios de aplicación del modelo. Sin embargo, se requiere un mayor refinamiento para escenarios complejos de prueba. ¡Esperamos con interés la próxima actualización! Además, Zhipu también ha incluido el GLM-4.6V en el Plan de Codificación GLM, y el precio es la mitad del GLM-4.5V, lo que hace que las tareas de programación multimodal sean mucho más fáciles de usar. #GLM #GLM46V #ZhipuAI #VLM





