Un modèle multimodal libre et open source capable d'« agrandir les images pour réfléchir » avec seulement 3 milliards de paramètres d'activation. Le modèle de pensée multimodale de Wenxin a été mis en open source ; le modèle s'appelle ERNIE-4.5-VL-28B-A3B-Thinking. Étonnamment, la version open source utilise la licence Apache-2.0, fournissant un code complet de pondération et d'inférence, ce qui la rend également adaptée à un usage commercial. Ces dernières années, le secteur de la modélisation à grande échelle a pris des allures de course aux armements : les paramètres sont devenus de plus en plus importants et la puissance de calcul de plus en plus coûteuse. En réalité, les petits modèles présentent également des avantages uniques : un faible coût de déploiement, une vitesse d’inférence rapide et davantage de scénarios d’utilisation (comme l’exécution sur des téléphones mobiles). Le principal atout réside dans la capacité du modèle open source à « penser en images » : il peut zoomer/dézoomer activement sur les images, se concentrer sur les détails et effectuer un raisonnement en plusieurs étapes. De plus, comme il s'agit d'un modèle multimodal, il prend également en charge l'analyse vidéo, l'extraction de texte et d'autres fonctionnalités. Il est réputé pour sa grande stabilité dans les tâches impliquant la compréhension et le raisonnement sur des images, des textes, des vidéos ou des documents. Certains dossiers officiels semblent plutôt convaincants.
Le modèle a été téléchargé sur HuggingFace, GitHhuggingface.co/baidu/ERNIE-4.…dlePaddle.github.com/PaddlePaddle/E…âgithub.com/PaddlePaddle/F…J18EcG0 aistudio.baidu.com/modelsdetail/3…68APvdB5ux https://t.co/C0lCKwbIMp Communauté PaddlePaddle Galaxy :





