Pour ceux qui s'intéressent aux dernières avancées en matière de pensée et de raisonnement multimodaux basés sur des images et des vidéos, ce recueil d'articles de @KevinQHLin est une lecture incontournable ! 1. Penser avec des images Cette section présente quatre articles qui explorent comment intégrer des images dans l'inférence de l'IA pour améliorer la compréhension visuelle et les capacités de prise de décision du modèle : [1] DeepEyes : Inciter à « penser avec des images » grâce à l’apprentissage par renforcement L'article de l'équipe de Xiaohongshu utilise l'apprentissage par renforcement pour encourager le modèle à utiliser des images pendant sa réflexion, en prenant en charge les fonctions de localisation et d'agrandissement des régions, ce qui aide le modèle à traiter les détails visuels avec plus de précision. [2] GRIT : Apprendre aux MLLM à penser avec des images Les auteurs incluent YFan_UCSC et xwang_lk. Cette méthode met en œuvre le chaînage basé sur les régions dans les grands modèles de langage multimodaux (MLLM) sans traitement externe, en représentant directement les régions d'image par des jetons, ce qui améliore l'efficacité. [3] ThinkMorph : Propriétés émergentes dans le raisonnement multimodal à chaîne de pensée entrelacée Parmi les auteurs figurent Kuvvius, LINJIEFUN, michaelqshieh et RanjayKrishna. L'article propose un cadre de pensée unifié, interconnecté et structuré en chaîne, qui génère simultanément texte et images, révélant ainsi des propriétés émergentes dans le raisonnement multimodal. [4] V-Thinker : La pensée interactive avec les images Développée par l'équipe WeChat, cette méthode permet un raisonnement interactif grâce à des outils visuels pilotés par le code, permettant au modèle d'ajuster dynamiquement le traitement d'images pour soutenir un processus de pensée plus flexible. 2. Réfléchir avec la vidéo Cette section répertorie trois articles qui mettent en évidence le potentiel de la vidéo en tant que modalité visuelle dynamique dans le raisonnement : [5] Les modèles vidéo sont des apprenants et des raisonneurs zéro-shot Basé sur le modèle de base Google DeepMind Veo3, il prend en charge l'inférence de chaîne d'images zéro-shot, ce qui signifie qu'il peut gérer les inférences logiques dans les séquences vidéo sans formation supplémentaire. [6] MiniVeo3-Reasoner Un modèle de génération vidéo open-source de THUML, conçu pour une pensée en chaîne, offrant une implémentation plus accessible. [7] Penser avec la vidéo : la génération vidéo comme paradigme de raisonnement multimodal prometteur Les auteurs appartiennent à l'équipe xpqiu. Cet article présente le benchmark VideoThinkBench et explore la génération vidéo comme un nouveau paradigme pour le raisonnement multimodal. Le document original se trouve dans la publication originale de Kevin 🔽
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
