Será que modelos de grande porte finalmente conseguirão gerar vídeos de 5 minutos de uma só vez? Pesquisadores de diversas universidades, incluindo a Universidade de Fudan e a Universidade de Nanjing, lançaram um novo modelo de mundo virtual multimodal e controlável de vídeos ultralongos, o LongVie 2. A característica mais significativa deste modelo é sua capacidade de gerar vídeos com até 5 minutos de duração. Este modelo é baseado em uma versão bastante modificada do Wan 2.1 e implementa uma série de fluxos de trabalho de três estágios, incluindo orientação multimodal, treinamento com reconhecimento de degradação para quadros de entrada e orientação contextual histórica, resultando em 3 a 5 minutos de vídeo coerente como resultado. Seu princípio fundamental é priorizar a consistência causal em vez da simples predição de quadros.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.