X (Twitter)

¿Por qué puedo generar un vídeo de 5 minutos de forma nativa sin ningún problema? Se basa en un método de preentrenamiento llamado tareas de continuación de vídeo. Durante el entrenamiento, LongCat-Video no ve fragmentos cortos, sino una gran cantidad de series de televisión. Su sistema se centra en anticipar lo que sucederá a continuación, en lugar de en cómo debería verse la escena. Cuando el modelo ve una serie de televisión, no la ve fotograma a fotograma, sino segmento a segmento y evento a evento. Comprende la «introducción, desarrollo, clímax y conclusión» de las acciones, un mecanismo denominado Atención Causal por Bloques. De esta manera, las largas secuencias de acciones no se fragmentan fácilmente. Al generar vídeos largos, LongCat-Video también almacena en caché los elementos invariables previamente calculados, como el edificio del fondo, para que no sea necesario recalcularlos en cada fotograma. Esto le permite extender la duración del vídeo hasta 5 minutos. (6/6)

Hilo de 卡尔的AI沃茨 (@aiwarts)

Información del autor

Contenido del hilo