X (Twitter)

Baidu ha liberado el código fuente de la versión Thinking del modelo ERNIE-4.5-VL-28B-A3B. Centrarse en mejorar la comprensión multimodal y las capacidades de razonamiento intermodal. Su ventaja radica en lograr una comprensión visual de alta precisión y un razonamiento complejo con una escala de parámetros relativamente pequeña mediante un diseño de estructura de modelo eficiente y estrategias de aprendizaje por refuerzo. Sus propias pruebas demostraron que la mayoría de las métricas de comprensión multimodal eran similares a las de los modelos Gemini-2.5-Pro y GPT-5-High. La tarea de comprensión de documentos y gráficos incluso superó su objetivo. Esta actualización introduce la capacidad "Pensar con imágenes", similar a la del anterior O3. El modelo puede acercar, alejar y recortar automáticamente las imágenes para ayudar a descubrir detalles de la imagen y realizar razonamiento visual. Desde el modelo OCR de hace unos días hasta el actual ERNIE-4.5-VL-28B-A3B Thinking, Baidu parece haber encontrado su dirección y sus puntos fuertes. Actualmente, la competencia en el sector multimodal nacional es escasa y existen pocos modelos multimodales de calidad. Si bien todos se centran en el código, están realizando un buen trabajo en el desarrollo multimodal. El modelo se ha lanzado en HuggingFace, GitHub y la comunidad PaddlePaddle, y los pesos y el código de inferencia se han hecho públicos.

Descahuggingface.co/baidu/ERNIE-4.…t.co/eFD6tcWBRr

Hilo de 歸藏(guizang.ai) (@op7418)

Información del autor

Contenido del hilo