Notícia impactante: Yann LeCun, Fei-Fei Li e Sai-Ning Xie lançaram em conjunto seu mais recente modelo multimodal, o Cambrian-S, que permite à inteligência multimodal possuir capacidades de superpercepção espacial. Embora os grandes modelos multimodais apresentem um desempenho excelente em tarefas de imagem e linguagem, eles ainda têm deficiências significativas na compreensão de vídeo, especialmente na percepção espacial. Os modelos só conseguem entender uma parte da imagem e estão longe de "compreender o espaço" e "lembrar o que aconteceu". A verdadeira inteligência multimodal não deve se limitar à percepção semântica, como a interpretação de imagens; ela também deve possuir capacidades de percepção espacial extrassensorial. Para atingir esse objetivo, eles propuseram em conjunto uma nova meta, um novo parâmetro de referência, um novo modelo e um novo paradigma de aprendizagem. 1. Novo benchmark: VSI-SUPER, incluindo duas tarefas O VSR exige que o modelo memorize e recupere a localização espacial e a ordem de ocorrência de objetos anômalos em um vídeo de duração arbitrária. O VSC exige que o modelo conte continuamente os objetos-alvo em várias salas e pontos de vista, e oferece suporte ao envio contínuo de perguntas e respostas. Nenhuma dessas tarefas pode ser resolvida simplesmente expandindo a janela de contexto ou por amostragem de força bruta; o modelo precisa ter uma verdadeira compreensão espacial e um mecanismo de memória. 2. Cambriano-S Obteve uma pontuação de 67,5% no VSI-Bench, em comparação com 51,5% do Gemini-2.5-Pro. Excelente desempenho em diversos testes de imagem/vídeo. No entanto, seu desempenho no VSI-SUPER continua fraco, indicando que a expansão de dados por si só não consegue superar o gargalo da percepção espacial. 3. Um novo paradigma de aprendizagem: Sensoriamento preditivo O objetivo é permitir que o modelo não apenas "veja", mas também "preveja" e "organize" as experiências percebidas, principalmente impulsionando a memória e a compreensão de eventos por meio de erros de previsão. Experimentos demonstram que esse método supera significativamente modelos comerciais como o Gemini-2.5 no VSI-SUPER, e mantém um desempenho estável mesmo em vídeos ultralongos (120 minutos). #CambrianS #InteligênciaEspacial
github:github.com/cambrian-mllm/…
