Pourquoi puis-je exporter nativement une vidéo de 5 minutes sans aucun problème ? Ce système repose sur une méthode de pré-entraînement appelée tâches de continuation vidéo. Durant l'entraînement, LongCat-Video ne visionne pas de courts extraits fragmentés, mais plutôt un grand nombre de séries télévisées. Son système anticipe ainsi naturellement la suite des événements, plutôt que de se concentrer sur l'apparence de la scène. Lorsqu'un modèle regarde une série télévisée, il ne la visionne pas image par image, mais segment par segment et événement par événement. Il comprend la structure en quatre parties (introduction, développement, point culminant et conclusion) des actions, un mécanisme appelé attention causale par blocs. Ainsi, les longues séquences d'actions ne risquent pas d'être facilement fragmentées. Lors de la génération de vidéos longues, LongCat-Video met également en cache les éléments précédemment calculés et immuables, comme le bâtiment en arrière-plan, évitant ainsi un recalcul pour chaque image. Cela lui permet d'étendre la durée de la vidéo jusqu'à 5 minutes. (6/6)
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.