[Interpretação do Artigo] Pensando com Vídeo: Geração de Vídeo como um Paradigma Promissor de Raciocínio Multimodal Motivação da pesquisa: Limitações dos paradigmas existentes. Este artigo aponta falhas significativas nos dois principais paradigmas de inferência de IA atualmente em uso: 1. "Pensando com Texto" • Representante: Cadeia de Pensamento (CoT) • Limitações: O texto simples carece de informações visuais e não consegue lidar com tarefas de raciocínio visual. 2. "Pensando com Imagens" • Modelos representativos: OpenAI o3, o4-mini, etc. • Dois problemas principais: * Limitações estáticas: As imagens só conseguem capturar um único momento e não podem representar processos dinâmicos ou mudanças contínuas. * Fragmentação modal: Texto e visão são tratados como modalidades independentes, dificultando a compreensão e a geração multimodal unificada. Solução inovadora: "Pensando com vídeo" Este artigo propõe a utilização de modelos de geração de vídeo (como o Sora-2) para construir uma estrutura temporal unificada que permita integrar o raciocínio visual e o textual. Principais vantagens: • Raciocínio dinâmico: Visualiza processos dinâmicos (como resolver quebra-cabeças espaciais desenhando linhas), demonstrando a evolução temporal e a transformação contínua. • Fusão multimodal: Incorpora texto em quadros de vídeo, alcançando compreensão e geração multimodal unificadas. • Cognição semelhante à humana: Alinha-se mais naturalmente aos processos cognitivos humanos que envolvem imaginação e simulação mental. Principais conclusões experimentais: Conclusão 1: Excelente desempenho em tarefas visuais Jogo de olhar fixo: Sora-2 alcançou uma precisão geral de 40,2%, superando todos os concorrentes, incluindo Claude 4.5 (35,1%). • GPT-5: 29,7% Gemini 2.5: 26,5% Desempenho excepcional em tarefas específicas: Interseção de raios: 88% (muito superior a outros modelos) Centro: 70% Demonstração de habilidades: • Consegue simular a extensão e a reflexão de raios. • Consegue manipular elementos geométricos (pontos, linhas) para auxiliar no raciocínio espacial. • Demonstra habilidades de raciocínio geométrico e físico. Descoberta 2: Quebra-cabeças visuais que exigem raciocínio indutivo: • Tarefa de preenchimento de cores: 67,0% (próximo aos 73,9% da Gemini) • Tarefa de desenho de formas: 64,9% (próximo aos 68,6% de Claude) • Capaz de reconhecer e aplicar padrões como simetria, gradação e combinação. Descoberta 3: Capacidade de aprendizado com poucos exemplos Teste ARC-AGI-2: • Precisão da avaliação automática: 1,3% Análise manual de 100 casos: 3% completamente corretos. Em sua maioria, correto: 14% Parcialmente correto: 28% Principal conclusão: fornecer todos os exemplos funciona melhor do que fornecer apenas um exemplo, comprovando que o Sora-2 aprende com poucos exemplos. Descoberta 4: Desempenho inesperado do raciocínio textual no raciocínio matemático (precisão de áudio): • GSM8K: 98,9% (comparável ao estado da arte) MATEMÁTICA-500: 92,0% • AIME24: 46,7% (SOTA em torno de 93%) Raciocínio multimodal: MathVista: 75,7% · MMMU: 69,2% · MMBench: 89,0% Principais conclusões: • A precisão do áudio é geralmente maior do que a do vídeo. • Gerar texto a partir de vídeo é difícil, mas informações de texto podem ser incorporadas nos quadros. Descoberta 5: A autoconsistência aprimora o experimento com os quebra-cabeças Arc Connect: • Último frame de uma única tentativa: 56% • Tentativa única de votação no mainframe: 68% • 5 tentativas de votação no mainframe: 90% Implicações: Métodos autoconsistentes podem melhorar significativamente o desempenho de tarefas de inferência na geração de vídeos. Experimento de análise aprofundada 1. Análise de Vazamento de Dados • Testado em problemas matemáticos adaptados (com valores diferentes) • O desempenho consistente descartou a possibilidade de vazamento do conjunto de testes. 2. Análise do Processo de Raciocínio: Análise manual de 115 exemplos de respostas corretas: Completamente correto: Apenas 13,91% • Logicamente correto, mas com erros de escrita: 29,57% • Ilegível ou logicamente falho: 43,48% Conclusão: Sora-2 tem dificuldades em gerar processos de raciocínio coerentes ao mesmo tempo que fornece a resposta correta. 3. Explorando a Origem das Capacidades: Comparando Wan2.5 (com/sem reescritor de prompts): • Quando o reescritor está desativado: a precisão fica próxima de 0%. • Quando o reescritor está ativado: a precisão é significativamente melhorada. Especulação: A capacidade de raciocínio textual de Sora-2 provavelmente provém principalmente do modelo de reescrita de pistas (muito provavelmente um VLM), e não do próprio componente de geração de vídeo. discurso de discussão do artigo
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
![[Interpretação do Artigo] Pensando com Vídeo: Geração de Vídeo como um Paradigma Promissor de Raciocínio Multimodal
Mo](https://pbs.twimg.com/media/G5MkvUbbIAATh_r.jpg)