X (Twitter)

Baidu vient de publier un nouveau modèle VLM, voici un résumé pour tous : Le modèle multimodal ERNIE-4.5-VL-28B-A3B-Thinking, bien qu'il possède un total de 28 paramètres, adopte l'architecture MoE, de sorte que les paramètres d'activation réels ne sont que de 3B, ce qui le rend vraiment léger. Le point essentiel est que ses performances sont excellentes, se rapprochant de celles des modèles phares haut de gamme dans de nombreux tests de référence. Les principales caractéristiques de ce modèle sont les suivantes : Raisonnement visuel : nous l’avons déjà démontré à plusieurs reprises ; il permet non seulement d’identifier les éléments d’une image, mais aussi d’en déduire le contenu. Raisonnement STEM : Utile pour la résolution de problèmes à partir de photos en mathématiques, physique, etc. Localisation visuelle : Offre une localisation plus précise et une exécution de commandes plus flexible. Pensée basée sur l’image : Le modèle peut penser comme un humain, en zoomant et dézoomant librement sur les images pour en saisir chaque détail. Utilisation d’outils : Peut utiliser la recherche d’images et d’autres fonctions pour identifier des connaissances spécifiques. - Compréhension vidéo : identifier les changements de contenu dans une vidéo à différents moments. Actuellement, il prend en charge de nombreuses méthodes de déploiement, dont vLLM. Cependant, la démo officielle pour l'espace n'est pas encore disponible pour des tests directs ; il faudra patienter. Je ferai un test plus tard si cela vous intéresse. Adresse du modèle :

Données détaillées

Données détaillées 2

Fil de karminski-牙医 (@karminski3)

Informations sur l'auteur

Contenu du fil