Information importante : Yann LeCun, Fei-Fei Li et Sai-Ning Xie ont publié conjointement leur dernier modèle multimodal, Cambrian-S, qui permet à l’intelligence multimodale de posséder des capacités de super-perception spatiale. Bien que les grands modèles multimodaux soient performants pour les tâches de traitement d'images et de langage, ils présentent encore des lacunes importantes en matière de compréhension vidéo, notamment en ce qui concerne la perception spatiale. Ces modèles ne peuvent appréhender qu'une partie de l'image et sont loin de « comprendre l'espace » et de « se souvenir des événements ». La véritable intelligence multimodale ne doit pas se limiter à la perception sémantique, comme l'interprétation d'images ; elle doit également posséder des capacités de perception spatiale extrasensorielle. À cette fin, ils ont proposé conjointement un nouvel objectif, un nouveau critère de référence, un nouveau modèle et un nouveau paradigme d'apprentissage. 1. Nouveau benchmark : VSI-SUPER, comprenant deux tâches La VSR exige que le modèle se souvienne et se rappelle de l'emplacement spatial et de l'ordre d'apparition des objets anormaux dans une vidéo de longueur arbitraire. VSC exige que le modèle compte en continu les objets cibles dans plusieurs pièces et points de vue, et prend en charge la réponse aux questions en continu. Aucune de ces tâches ne peut être résolue par un simple élargissement de la fenêtre de contexte ou par un échantillonnage par force brute ; le modèle doit posséder une véritable compréhension spatiale et un mécanisme de mémoire. 2. Cambrien-S Il a obtenu un score de 67,5 % sur VSI-Bench, contre 51,5 % pour le Gemini-2.5-Pro. Excellentes performances sur de nombreux tests de performance image/vidéo Cependant, ses performances sur VSI-SUPER restent médiocres, ce qui indique que l'expansion des données à elle seule ne peut pas surmonter le goulot d'étranglement de la perception spatiale. 3. Un nouveau paradigme d'apprentissage : la détection prédictive L’objectif est de permettre au modèle non seulement de « voir », mais aussi de « prédire » et d’« organiser » les expériences perçues, principalement en orientant la mémoire et la compréhension des événements grâce aux erreurs de prédiction. Les expériences montrent que cette méthode surpasse de manière significative les modèles commerciaux tels que Gemini-2.5 sur VSI-SUPER et maintient des performances stables même sur des vidéos ultra-longues (120 minutes). #CambrianS #IntelligenceSpatiale
github:github.com/cambrian-mllm/…
