Baidu a rendu open-source la version Thinking du modèle ERNIE-4.5-VL-28B-A3B. Mettre l'accent sur l'amélioration de la compréhension multimodale et des capacités de raisonnement intermodal. Son avantage réside dans sa capacité à atteindre une compréhension visuelle de haute précision et un raisonnement complexe avec une échelle de paramètres relativement petite grâce à une conception efficace de la structure du modèle et à des stratégies d'apprentissage par renforcement. Leurs propres tests ont montré que la plupart des indicateurs de compréhension multimodale étaient proches de ceux des modèles Gemini-2.5-Pro et GPT-5-High. La tâche de compréhension de documents et de graphiques a même dépassé leurs objectifs. Cette mise à jour introduit la fonctionnalité « Penser avec des images », similaire à celle de la version précédente O3. Le modèle peut effectuer des zooms avant et arrière automatiques, ainsi que des recadrages d'images, afin de faciliter la découverte des détails et le raisonnement visuel. Du modèle OCR d'il y a quelques jours au modèle actuel ERNIE-4.5-VL-28B-A3B Thinking, Baidu semble avoir trouvé sa voie et ses points forts. Le secteur multimodal national est actuellement peu concurrentiel et compte peu de modèles multimodaux performants. Bien que l'accent soit mis sur le code, le développement multimodal y est de bonne qualité. Le modèle a été lancé sur HuggingFace, GitHub et la communauté PaddlePaddle, et les poids ainsi que le code d'inférence ont été rendus publics.
Téléchuggingface.co/baidu/ERNIE-4.…ttps://t.co/eFD6tcWBRr
