X (Twitter)

También puedes ver a personas vendiendo productos desde una perspectiva en primera persona. Presta mucha atención a la forma de la boca del personaje, sus parpadeos y los movimientos de sus manos. Aunque no hay sonido en este momento, en el vídeo de un minuto no se observa ningún movimiento repetitivo de la boca. Además, cuando la mano agita el frasco de perfume, el líquido en su interior se balancea ligeramente. (5/6)

¿Por qué puedo generar un vídeo de 5 minutos de forma nativa sin ningún problema? Se basa en un método de preentrenamiento llamado tareas de continuación de vídeo. Durante el entrenamiento, LongCat-Video no ve fragmentos cortos, sino una gran cantidad de series de televisión. Su sistema se centra en anticipar lo que sucederá a continuación, en lugar de en cómo debería verse la escena. Cuando el modelo ve una serie de televisión, no la ve fotograma a fotograma, sino segmento a segmento y evento a evento. Comprende la «introducción, desarrollo, clímax y conclusión» de las acciones, un mecanismo denominado Atención Causal por Bloques. De esta manera, las largas secuencias de acciones no se fragmentan fácilmente. Al generar vídeos largos, LongCat-Video también almacena en caché los elementos invariables previamente calculados, como el edificio del fondo, para que no sea necesario recalcularlos en cada fotograma. Esto le permite extender la duración del vídeo hasta 5 minutos. (6/6)

Hilo de 卡尔的AI沃茨 (@aiwarts)

Información del autor

Contenido del hilo