Les modèles multimodaux unifiés peuvent générer à la fois du texte et des images, mais possèdent-ils réellement des capacités de raisonnement intermodal ? Cet article présente un banc d’essai spécifiquement conçu pour évaluer la capacité d’un modèle unifié à effectuer un « raisonnement intermodal réciproque ». En termes simples, le modèle d'évaluation de la « pensée textuelle » peut générer des images à l'aide d'un raisonnement textuel, ou la « pensée visuelle » peut générer du texte à l'aide d'un raisonnement par l'image. Les résultats des tests montrent que les modèles sont relativement performants en matière de « pensée textuelle » mais relativement faibles en matière de « pensée visuelle ».
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.