Les grands modèles peuvent-ils enfin générer des vidéos de 5 minutes en une seule fois ? Des chercheurs de plusieurs universités, dont l'université Fudan et l'université de Nanjing, ont publié LongVie 2, un nouveau modèle multimodal contrôlable du monde vidéo ultra-long. La caractéristique la plus importante de ce modèle est sa capacité à générer des vidéos d'une durée allant jusqu'à 5 minutes. Ce modèle, basé sur une version fortement modifiée de Wan 2.1, met en œuvre un processus en trois étapes : guidage multimodal, apprentissage prenant en compte la dégradation des images d'entrée et guidage contextuel, permettant ainsi de produire une vidéo cohérente de 3 à 5 minutes. Son principe fondamental est de privilégier la cohérence causale à la simple prédiction d'images.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.