X (Twitter)

Por que consigo gerar um vídeo de 5 minutos nativamente sem nenhum problema? Ele se baseia em um método de pré-treinamento chamado tarefas de continuação de vídeo. Durante o treinamento, o LongCat-Video não assiste a pequenos trechos fragmentados, mas sim a um grande número de séries de TV. Seu cérebro pensa naturalmente no que acontecerá a seguir, em vez de como a cena deveria ser. Quando o modelo assiste a uma série de TV, ele não a assiste quadro a quadro, mas sim segmento a segmento e evento a evento. Ele compreende a "introdução, o desenvolvimento, o clímax e a conclusão" das ações, um mecanismo chamado Atenção Causal em Blocos. Dessa forma, longas sequências de ações não se fragmentam facilmente. Ao gerar vídeos longos, o LongCat-Video também armazena em cache elementos previamente calculados e imutáveis, como o prédio ao fundo, para que não precisem ser recalculados a cada quadro. Isso permite estender a duração do vídeo para até 5 minutos. (6/6)

Thread de 卡尔的AI沃茨 (@aiwarts)

Informações do autor

Conteúdo da thread