X (Twitter)

Baidu acaba de lanzar un nuevo modelo VLM; aquí tenéis un resumen para todos: El modelo multimodal ERNIE-4.5-VL-28B-A3B-Thinking, aunque tiene un total de 28 parámetros, adopta la arquitectura MoE, por lo que los parámetros de activación reales son solo 3B, lo que lo hace verdaderamente ligero. La clave reside en que su rendimiento es bastante sólido, acercándose al de los modelos insignia de gama alta en múltiples pruebas de referencia. Las principales características de este modelo incluyen: Razonamiento visual: Ya lo hemos demostrado en varias ocasiones; no solo permite identificar elementos de una imagen, sino también deducir su contenido. Razonamiento STEM: Resulta útil para resolver problemas basados en fotografías en matemáticas, física, etc. Localización visual: Proporciona una localización más precisa y una ejecución de comandos flexible. Pensamiento basado en imágenes: El modelo puede pensar como un humano, ampliando y reduciendo libremente las imágenes para captar cada detalle. Uso de herramientas: Puede utilizar la búsqueda de imágenes y otras funciones para identificar conocimiento especializado. -Comprensión de vídeo: Identificar los cambios de contenido en un vídeo a lo largo de diferentes periodos de tiempo. Actualmente, admite varios métodos de despliegue, incluido vLLM. Sin embargo, la demo oficial para Space aún no está disponible para pruebas directas; tendrás que esperar. Si te interesa, puedo hacer una prueba más adelante. Dirección del modelo:

Datos detallados

Datos detallados 2

Hilo de karminski-牙医 (@karminski3)

Información del autor

Contenido del hilo