Noticia impactante: Yann LeCun, Fei-Fei Li y Sai-Ning Xie han lanzado conjuntamente su último modelo multimodal, Cambrian-S, que permite a la inteligencia multimodal poseer capacidades de superpercepción espacial. Aunque los modelos multimodales de gran tamaño tienen un buen desempeño en tareas de imagen y lenguaje, aún presentan deficiencias importantes en la comprensión de vídeo, especialmente en la percepción espacial. Estos modelos solo pueden comprender una parte de la imagen y están lejos de «comprender el espacio» y «recordar lo sucedido». La verdadera inteligencia multimodal no debe limitarse a la percepción semántica, como la interpretación de imágenes; también debe poseer capacidades de percepción extrasensorial espacial. Con este fin, propusieron conjuntamente un nuevo objetivo, un nuevo punto de referencia, un nuevo modelo y un nuevo paradigma de aprendizaje. 1. Nuevo benchmark: VSI-SUPER, que incluye dos tareas. El VSR requiere que el modelo recuerde y recupere la ubicación espacial y el orden de aparición de objetos anómalos en un vídeo de duración arbitraria. VSC requiere que el modelo cuente continuamente los objetos objetivo en múltiples habitaciones y puntos de vista, y admite la respuesta a preguntas en tiempo real. Ninguna de estas tareas puede resolverse simplemente ampliando la ventana de contexto o mediante muestreo por fuerza bruta; el modelo necesita tener una verdadera comprensión espacial y un mecanismo de memoria. 2. Cámbrico-S Obtuvo un 67,5% en VSI-Bench, en comparación con el 51,5% del Gemini-2.5-Pro. Excelente rendimiento en múltiples pruebas de referencia de imagen/vídeo. Sin embargo, su rendimiento en VSI-SUPER sigue siendo deficiente, lo que indica que la expansión de datos por sí sola no puede superar el cuello de botella de la percepción espacial. 3. Un nuevo paradigma de aprendizaje: Detección predictiva El objetivo es permitir que el modelo no solo "vea" sino también "prediga" y "organice" las experiencias percibidas, principalmente impulsando la memoria y la comprensión de los eventos a través de errores de predicción. Los experimentos demuestran que este método supera significativamente a los modelos comerciales como Gemini-2.5 en VSI-SUPER y mantiene un rendimiento estable incluso en vídeos ultralargos (120 minutos). #CambrianS #InteligenciaEspacial
github:github.com/cambrian-mllm/…
