X (Twitter)

Testei o primeiro modelo de IA para vídeos da Meituan, o LongCat-Video, com 13,6 bilhões de parâmetros. Este modelo único consegue gerar vídeos a partir de texto e imagens, realizar continuação de vídeos e produzir vídeos muito longos, com saída em 720p a 30fps. Inclusive, usei meus contatos para obter acesso interno aos testes junto à equipe do Meituan LongCat. Por exemplo, neste vídeo, você consegue dizer a partir de qual segundo eu usei o LongCat-Video para continuar a história? 👇 (1/6)

A resposta é que, após 2 segundos, tudo será conteúdo gerado. O LongCat-Video se destaca na criação de vídeos de viagem no tempo em primeira pessoa, podendo até mesmo gerar vídeos de 5 minutos de duração de uma só vez, com um processo muito natural e coerente que se assemelha bastante ao mundo real. (2/6)

A equipe técnica define o LongCat-Video como um modelo de mundo. Ao contrário dos modelos de vídeo comuns, que visam gerar vídeos com estilos e cenas diversas, o modelo de mundo busca compreender a dinâmica, as leis da física e as relações causais do mundo real. A NVIDIA enfatizou repetidamente esse conceito na GTC, e os casos de aplicação que apresentaram incluíram a simulação de diferentes padrões de fluxo de tráfego, condições das estradas, clima e iluminação para carros inteligentes, o desenvolvimento de inteligência espacial para robôs e o fornecimento de análises de vídeo para centros de transporte e multidões. Portanto, nesta avaliação, focarei na compreensão do mundo físico e da lógica causal, por exemplo, fazendo-o executar seis ações específicas. (3/6)

Ou confira os vídeos de mukbang feitos por LongCat-Video. À medida que a comida entra na boca, a porção no prato diminui e a pessoa faz expressões faciais típicas do mukbang. Seria melhor se a nitidez e a iluminação da imagem fossem menos acentuadas. (4/6)

Você também pode observar pessoas vendendo produtos em uma perspectiva de primeira pessoa. Preste muita atenção ao formato da boca da personagem, ao piscar de olhos e aos movimentos das mãos. Embora não haja som no momento, não há nenhum movimento circular da boca no vídeo de um minuto. Além disso, quando a mão agita o frasco de perfume, o líquido dentro dele oscila levemente. (5/6)

Por que consigo gerar um vídeo de 5 minutos nativamente sem nenhum problema? Ele se baseia em um método de pré-treinamento chamado tarefas de continuação de vídeo. Durante o treinamento, o LongCat-Video não assiste a pequenos trechos fragmentados, mas sim a um grande número de séries de TV. Seu cérebro pensa naturalmente no que acontecerá a seguir, em vez de como a cena deveria ser. Quando o modelo assiste a uma série de TV, ele não a assiste quadro a quadro, mas sim segmento a segmento e evento a evento. Ele compreende a "introdução, o desenvolvimento, o clímax e a conclusão" das ações, um mecanismo chamado Atenção Causal em Blocos. Dessa forma, longas sequências de ações não se fragmentam facilmente. Ao gerar vídeos longos, o LongCat-Video também armazena em cache elementos previamente calculados e imutáveis, como o prédio ao fundo, para que não precisem ser recalculados a cada quadro. Isso permite estender a duração do vídeo para até 5 minutos. (6/6)

Thread de 卡尔的AI沃茨 (@aiwarts)

Informações do autor

Conteúdo da thread