Baidu vient de publier ERNIE-4.5-VL-28B-A3B-Thinking, qui se concentre sur la « pensée à travers les images » et permet aux utilisateurs de zoomer et dézoomer librement sur les images à l'aide de la mise à l'échelle d'images, de la recherche et d'autres outils. Cela améliore la capacité du modèle à gérer les détails fins et les connaissances visuelles à long terme, permettant une compréhension plus complète des scènes visuelles complexes. Super GPT-5-High et GEMINI-2.5-Pro sur VLMs sont aveugles Il peut être utilisé pour le raisonnement en plusieurs étapes, l'analyse de graphes, l'inférence causale, la résolution de problèmes STEM basée sur la photographie et la localisation temporelle vidéo. #BaiduERNIE #VLM
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
