X (Twitter)

Vous pouvez également observer des personnes vendre des marchandises en vue subjective. Observez attentivement la forme de la bouche du personnage, ses clignements d'yeux et les mouvements de ses mains. Bien qu'il n'y ait pas de son pour le moment, la forme de la bouche ne se répète pas en boucle dans la vidéo d'une minute. De plus, lorsque la main secoue le flacon de parfum, le liquide à l'intérieur oscille légèrement. (5/6)

Pourquoi puis-je exporter nativement une vidéo de 5 minutes sans aucun problème ? Ce système repose sur une méthode de pré-entraînement appelée tâches de continuation vidéo. Durant l'entraînement, LongCat-Video ne visionne pas de courts extraits fragmentés, mais plutôt un grand nombre de séries télévisées. Son système anticipe ainsi naturellement la suite des événements, plutôt que de se concentrer sur l'apparence de la scène. Lorsqu'un modèle regarde une série télévisée, il ne la visionne pas image par image, mais segment par segment et événement par événement. Il comprend la structure en quatre parties (introduction, développement, point culminant et conclusion) des actions, un mécanisme appelé attention causale par blocs. Ainsi, les longues séquences d'actions ne risquent pas d'être facilement fragmentées. Lors de la génération de vidéos longues, LongCat-Video met également en cache les éléments précédemment calculés et immuables, comme le bâtiment en arrière-plan, évitant ainsi un recalcul pour chaque image. Cela lui permet d'étendre la durée de la vidéo jusqu'à 5 minutes. (6/6)

Fil de 卡尔的AI沃茨 (@aiwarts)

Informations sur l'auteur

Contenu du fil