X (Twitter)

Zhipu acaba de publicar el código abierto del GLM-4.6V, cuya capacidad principal es transformar la "interpretación de imágenes" en "actuación basada en imágenes". Anteriormente, los modelos multimodales describían principalmente el contenido de la imagen. GLM-4.6V integra directamente las llamadas a herramientas en el modelo visual, donde la propia imagen actúa como parámetro de comando. Por ejemplo, dada una foto de calle, automáticamente llama a una API de comparación de precios/búsqueda de imágenes y devuelve una guía de compras con información sobre la fuente, el precio, la miniatura del producto, el grado de coincidencia y las diferencias, y los enlaces de compra. También tiene replicación front-end; dado un borrador de diseño, puede generar código HTML/CSS/JS de alta calidad y con un nivel de perfección en píxeles, admitiendo múltiples rondas de ajuste mediante capturas de pantalla. Dos versiones: GLM-4.6V (106B-A12B), versión en la nube de alto rendimiento GLM-4.6V-Flash (9B), versión local de baja latencia, de uso gratuito. Admitir un contexto visual de 128k es como agrupar un informe financiero completo, un juego completo o un manual de instrucciones completo en un solo archivo. Además, permite comparaciones y resúmenes entre páginas y cámaras, lo que evita tener que tomar capturas de pantalla repetidamente e introducir datos en segmentos. El precio de GLM-4.6V es un 50% inferior al de GLM-4.5V. El precio de la llamada API es de 1 yuan por millón de tokens para la entrada y de 3 yuanes por millón de tokens para la salida. #GLM46V #EspectroInteligenteGLM

GitHub:github.com/zai-org/GLM-V1 Cara abrazahuggingface.co/collections/za…lnP1 modelscope.cn/collections/GL…/t.co/jQvz.ai/blog/glm-4.6vhttps://t.co/HZ3N348sYA

Hilo de AIGCLINK (@aigclink)

Información del autor

Contenido del hilo