[Interpretación del artículo] Pensar con vídeo: La generación de vídeo como un prometedor paradigma de razonamiento multimodal Motivación de la investigación: Limitaciones de los paradigmas existentes. Este artículo señala importantes deficiencias en los dos paradigmas de inferencia de IA convencionales actuales: 1. "Pensar con texto" • Representante: Cadena de Pensamiento (CdP) • Limitaciones: El texto plano carece de información visual y no puede manejar tareas de razonamiento visual. 2. "Pensar con imágenes" • Modelos representativos: OpenAI o3, o4-mini, etc. • Dos problemas principales: * Limitaciones estáticas: Las imágenes solo capturan un instante y no pueden representar procesos dinámicos ni cambios continuos. * Fragmentación modal: El texto y la visión se tratan como modalidades independientes, lo que dificulta la comprensión y generación multimodal unificada. Solución innovadora: "Pensar con vídeo" El artículo propone utilizar modelos de generación de vídeo (como Sora-2) para construir un marco temporal unificado que conecte el razonamiento visual y textual. Ventajas principales: • Razonamiento dinámico: Visualiza procesos dinámicos (como la resolución de puzles espaciales mediante el trazado de líneas), demostrando la evolución temporal y la transformación continua. • Fusión multimodal: Integra texto en los fotogramas de vídeo, logrando una comprensión y generación multimodal unificada. • Cognición similar a la humana: Se alinea de forma más natural con los procesos cognitivos humanos que implican imaginación y simulación mental. Principales hallazgos experimentales: Hallazgo 1: Excelente desempeño en tareas visuales Juego de observación: Sora-2 logró una precisión general del 40,2%, superando a todos sus competidores, incluido Claude 4.5 (35,1%). • GPT-5: 29,7% Géminis 2.5: 26,5% Rendimiento excepcional en tareas específicas: Intersección de rayos: 88% (superando con creces a otros modelos) Centro: 70% Demostración de habilidades: • Puede simular la propagación y reflexión de rayos. • Puede manipular elementos geométricos (puntos, líneas) para comprender el razonamiento espacial. • Demuestra capacidad de razonamiento geométrico y físico. Descubrimiento 2: Rompecabezas visuales que requieren razonamiento inductivo: • Tarea de relleno de color: 67,0% (cerca del 73,9% de Géminis) • Tarea de dibujo de formas: 64,9% (cerca del 68,6% de Claude) • Puede reconocer y aplicar patrones como la simetría, la gradación y la combinación. Descubrimiento 3: Capacidad de aprendizaje con pocos ejemplos Prueba ARC-AGI-2: • Precisión de la evaluación automática: 1,3% Análisis manual de 100 casos: 3% completamente correctos. Mayormente correcto: 14% Parcialmente correcto: 28% Hallazgo clave: Proporcionar todos los ejemplos funciona mejor que proporcionar solo un ejemplo, lo que demuestra que Sora-2 aprende con pocos ejemplos. Hallazgo 4: Rendimiento inesperado del razonamiento textual en el razonamiento matemático (precisión de audio): • GSM8K: 98,9% (comparable a la tecnología de vanguardia) MATEMÁTICAS-500: 92,0% · AIME24: 46,7% (SOTA alrededor del 93%) Razonamiento multimodal: MathVista: 75,7% · MMMU: 69,2% · MMBench: 89,0% Hallazgos clave: • La precisión del audio suele ser mayor que la del vídeo. • Generar texto a partir de vídeo es difícil, pero se puede insertar información textual en los fotogramas. Hallazgo 5: La autoconsistencia mejora el experimento con rompecabezas Arc Connect: • Último fotograma de un solo intento: 56% • Intento único de votación en el servidor principal: 68% • 5 intentos de votación en el marco principal: 90% Implicaciones: Los métodos autoconsistentes pueden mejorar significativamente el rendimiento de las tareas de inferencia de generación de vídeo. Experimento de análisis en profundidad 1. Análisis de fuga de datos • Probado en problemas matemáticos adaptados (con diferentes valores) • El rendimiento consistente descartó la posibilidad de fuga en el conjunto de prueba. 2. Análisis del proceso de razonamiento: Análisis manual de 115 ejemplos de respuestas correctas: Totalmente correcto: Solo el 13,91% • Lógicamente correcto pero con errores de redacción: 29,57% • Ilegible o con errores lógicos: 43,48% Conclusión: Sora-2 tiene dificultades para generar procesos de razonamiento coherentes al tiempo que proporciona la respuesta correcta. 3. Explorando el origen de las capacidades: Comparando Wan2.5 (con/sin reescritor de avisos): • Cuando el reescritor está desactivado: la precisión es cercana al 0%. • Cuando el reescritor está habilitado: la precisión mejora significativamente. Especulación: La capacidad de razonamiento textual de Sora-2 probablemente proviene principalmente del modelo de reescritura de señales (muy probablemente un VLM), en lugar del componente de generación de vídeo en sí. Dirección de discusión del artículo
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
![[Interpretación del artículo] Pensar con vídeo: La generación de vídeo como un prometedor paradigma de razonamiento mult](https://pbs.twimg.com/media/G5MkvUbbIAATh_r.jpg)