Un modelo multimodal gratuito y de código abierto que puede "ampliar imágenes para pensar" con solo 3 mil millones de parámetros de activación. El modelo de pensamiento multimodal de Wenxin se ha liberado como código abierto; el modelo se llama ERNIE-4.5-VL-28B-A3B-Thinking. Sorprendentemente, la versión de código abierto utiliza la licencia Apache-2.0, proporcionando el código completo de ponderación e inferencia, que también es apto para uso comercial. En los últimos años, la industria de los modelos a gran escala se ha asemejado a una carrera armamentística: los parámetros se han vuelto cada vez mayores y la potencia informática se ha encarecido cada vez más. De hecho, los modelos pequeños también tienen ventajas únicas: bajo coste de implementación, velocidad de inferencia rápida y más escenarios de uso (como su ejecución en teléfonos móviles). Lo más destacable es que el modelo de código abierto tiene la capacidad de "pensar en imágenes": puede acercar/alejar activamente las imágenes, centrarse en los detalles y realizar razonamientos de varios pasos. Además, al ser un modelo multimodal, también admite análisis de vídeo, extracción de texto y otras capacidades. Se dice que funciona de manera muy estable en tareas que implican la comprensión y el razonamiento de imágenes, texto, vídeo y documentos. Algunos casos oficiales tienen muy buena pinta.
El modelo se ha subido a HuggingFace, GitHub y lhuggingface.co/baidu/ERNIE-4.…e. Cara github.com/PaddlePaddle/E…ogithub.com/PaddlePaddle/F…https://t.aistudio.baidu.com/modelsdetail/3…t.co/C0lCKwbIMp Comunidad PaddlePaddle Galaxy:





