[Interprétation d'un article] Penser avec la vidéo : la génération vidéo comme paradigme prometteur de raisonnement multimodal Motivation de la recherche : Limites des paradigmes existants Cet article met en évidence des failles importantes dans les deux paradigmes d’inférence en IA actuellement dominants : 1. « Penser avec le texte » • Représentant : Chaîne de pensée (CoT) • Limitations : Le texte brut manque d'informations visuelles et ne peut pas traiter les tâches de raisonnement visuel. 2. « Penser avec des images » • Modèles représentatifs : OpenAI o3, o4-mini, etc. • Deux problèmes majeurs : * Contraintes statiques : les images ne peuvent capturer qu’un instant précis et ne peuvent représenter ni les processus dynamiques ni les changements continus. * Fragmentation modale : le texte et la vision sont traités comme des modalités indépendantes, ce qui entrave la compréhension et la génération multimodales unifiées. Solution innovante : « Penser avec la vidéo » L'article propose d'utiliser des modèles de génération vidéo (tels que Sora-2) pour construire un cadre temporel unifié afin de relier le raisonnement visuel et textuel. Principaux avantages : • Raisonnement dynamique : Visualisation des processus dynamiques (comme la résolution d’énigmes spatiales par le tracé de lignes), démontrant l’évolution temporelle et la transformation continue. • Fusion multimodale : Intégration de texte dans les images vidéo, pour une compréhension et une génération multimodales unifiées. • Cognition plus proche de la cognition humaine : Meilleure adéquation avec les processus cognitifs humains impliquant l’imagination et la simulation mentale. Principaux résultats expérimentaux : Résultat 1 : Excellentes performances aux tâches visuelles Jeu d'évaluation visuelle : Sora-2 a atteint une précision globale de 40,2 %, surpassant tous ses concurrents, y compris Claude 4.5 (35,1 %). • GPT-5 : 29,7 % Gémeaux 2.5 : 26,5 % Performances exceptionnelles dans des tâches spécifiques : Intersection de rayons : 88 % (dépassant largement les autres modèles) Centre : 70 % Démonstration des aptitudes : • Peut simuler le prolongement et la réflexion des rayons. • Peut manipuler des éléments géométriques (points, lignes) pour faciliter le raisonnement spatial. • Fait preuve de capacités de raisonnement géométrique et physique. Découverte 2 : Des énigmes visuelles qui nécessitent un raisonnement inductif : • Tâche de coloriage : 67,0 % (proche des 73,9 % de Gemini) • Tâche de dessin de formes : 64,9 % (proche des 68,6 % de Claude) • Peut reconnaître et appliquer des motifs tels que la symétrie, la gradation et la combinaison. Découverte 3 : Capacité d’apprentissage en peu de coups Test ARC-AGI-2 : • Précision de l'évaluation automatique : 1,3 % Analyse manuelle de 100 cas : 3 % entièrement corrects. Plutôt correct : 14 % Partiellement correct : 28 % Constat principal : Fournir tous les exemples fonctionne mieux que de n’en fournir qu’un seul, ce qui prouve que Sora-2 est un apprenant à partir de quelques exemples. Constatation 4 : Performances inattendues du raisonnement textuel dans le raisonnement mathématique (précision audio) : • GSM8K : 98,9 % (comparable aux technologies de pointe) MATH-500 : 92,0 % · AIME24 : 46,7 % (SOTA environ 93 %) Raisonnement multimodal : MathVista : 75,7 % · MMMU : 69,2 % · MMBench : 89,0 % Principales conclusions : • La précision audio est généralement supérieure à la précision vidéo. • Générer du texte à partir d'une vidéo est complexe, mais il est possible d'intégrer des informations textuelles dans les images. Constat n° 5 : La cohérence interne améliore l’expérience sur les puzzles Arc Connect : • Dernière image d'une tentative : 56 % • Tentative unique de vote sur l'ordinateur central : 68 % • 5 tentatives de vote sur l'ordinateur central : 90 % Implications : Les méthodes auto-cohérentes peuvent améliorer considérablement les performances des tâches d'inférence de génération vidéo. Expérience d'analyse approfondie 1. Analyse des fuites de données • Testé sur des problèmes mathématiques adaptés (avec des valeurs différentes) • Des performances constantes ont exclu la possibilité de fuite de l'ensemble de test. 2. Analyse du processus de raisonnement : Analyse manuelle de 115 exemples de réponses correctes : Tout à fait exact : seulement 13,91 % • Logiquement correct mais avec des erreurs d'écriture : 29,57 % • Illisible ou logiquement erroné : 43,48 % Conclusion : Sora-2 peine à générer des processus de raisonnement cohérents tout en fournissant la bonne réponse. 3. Exploration de la source des capacités : en comparant Wan2.5 (avec/sans réécriture d’invite) : • Lorsque le réécrivain est désactivé : la précision est proche de 0 %. • Lorsque le réécrivain est activé : la précision est considérablement améliorée. Spéculation : La capacité de raisonnement textuel de Sora-2 provient probablement principalement du modèle de réécriture des repères (très probablement un VLM), plutôt que du composant de génération vidéo lui-même. Discussion du document
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
![[Interprétation d'un article] Penser avec la vidéo : la génération vidéo comme paradigme prometteur de raisonnement mult](https://pbs.twimg.com/media/G5MkvUbbIAATh_r.jpg)