X (Twitter)

Prueba real del GLM-4.6V. ¿Qué se puede hacer con un modelo grande usando ToolCall? ¡Aquí tienes una prueba real del GLM-4.6V! Dado que el GLM-4.6V es compatible con las funciones de Agente/MCP, ampliamos nuestros escenarios de prueba, incluyendo la escritura de texto e imágenes mediante PDF, la reconstrucción de sitios web mediante grabaciones de pantalla y el reconocimiento de recibos de entrega de comida. Veamos directamente los resultados de la prueba: La primera prueba se realizó con recibos de comida para llevar. Se cargaron varios recibos y se le pidió al modelo que calculara lo que se había consumido, cuánto se había gastado e identificara posibles alérgenos. Esta prueba superó la prueba sin problemas. En pruebas posteriores, las capacidades de OCR del GLM-4.6V también fueron su característica más destacada, demostrando su capacidad para gestionar situaciones de OCR. A continuación, se presenta la prueba del agente de informes visuales PDF, recientemente actualizada. Esto implica cargar un PDF, y el modelo puede usar un agente de captura de pantalla para resumir el contenido del PDF y generar texto enriquecido con capturas de pantalla. En esta prueba, la IA gestionó PDF con formato simple sin problemas, extrayendo las imágenes correctamente. Sin embargo, para PDF con formato complejo, como el PDF de la revista utilizado para crear el modelo en mi prueba, simplemente generó la página completa como una imagen en lugar de extraer imágenes individuales. #GLM #GLM46V #ZhipuAI #VLM #Zhipu

A continuación, se realizó la prueba de generación de un sitio web dinámico a partir de una grabación de pantalla. En esta prueba, la capacidad de OCR fue muy buena; pudo reproducir el texto de la página web, pero no las animaciones. Se estima que se requiere capacitación específica. A continuación, se realizó la prueba de etiquetado de objetos, utilizando una imagen con una jirafa y un antílope. Esta imagen se seleccionó cuidadosamente debido a sus numerosos distractores. Por ejemplo, la jirafa de la derecha tiene dos cuellos que casi se superponen, lo que facilita una identificación errónea. Además, los dos antílopes de abajo están ocultos por la jirafa, pero sus cabezas y colas siguen conectadas; si el modelo no puede comprender la estructura corporal de los mamíferos, es propenso a la identificación errónea. En esta prueba, la jirafa se identificó perfectamente, pero se omitió un antílope. Esto supone una mejora con respecto al GLM-4.5V anterior, que no se pudo realizar en esta prueba. A continuación, se realizó la prueba de simulación del sitio web. Sin embargo, creo que todos están cansados de las simulaciones tradicionales de sitios web, así que esta vez incrementé la dificultad usando imágenes de un experimento químico. Se utilizó el GLM-4.6V para modelar y simular el experimento químico con three.js. El experimento de electrólisis del agua se realizó correctamente; todo, excepto la batería, se reprodujo correctamente. Luego vino una escena compleja: el calentamiento para generar oxígeno. El detalle es que se reprodujeron todos los instrumentos experimentales, pero sus posiciones espaciales eran incorrectas. Sin embargo, esta es una prueba difícil incluso para un modelo de cabeza grande, así que es comprensible.

Finalmente, se realizó la prueba de conocimientos. Dada la imagen de un multímetro, se le preguntó al GLM-4.6V cómo un modelo grande debería comprobar la capacidad de la batería. Esto tampoco fue un problema para el GLM-4.6V. Esta es otra gran ventaja del GLM-4.6V: unos parámetros suficientes resultan en un excelente conocimiento. Anteriormente, durante las pruebas con el GLM-4.5V, incluso podía identificar manos ganadoras en mahjong. En resumen, en comparación con GLM-4.5V de hace unos meses, esta versión no solo muestra una mejora continua del rendimiento, lo que permite realizar pruebas que antes eran imposibles, sino que también añade capacidades de Agente/MCP, lo que permite realizar tareas mediante herramientas, ampliando considerablemente los escenarios de aplicación del modelo. Sin embargo, se requiere un mayor refinamiento para escenarios complejos de prueba. ¡Esperamos con interés la próxima actualización! Además, Zhipu también ha incluido el GLM-4.6V en el Plan de Codificación GLM, y el precio es la mitad del GLM-4.5V, lo que hace que las tareas de programación multimodal sean mucho más fáciles de usar. #GLM #GLM46V #ZhipuAI #VLM

Hilo de karminski-牙医 (@karminski3)

Información del autor

Contenido del hilo