X (Twitter)

J'ai testé LongCat-Video, le premier modèle vidéo IA de Meituan, doté de 13,6 milliards de paramètres. Ce modèle unique peut générer des vidéos à partir de texte et d'images, effectuer des enchaînements vidéo et produire des vidéos très longues, en 720p à 30 images par seconde. J'ai même utilisé mes contacts pour obtenir un accès interne aux tests auprès de l'équipe Meituan LongCat. Par exemple, dans cette vidéo, pouvez-vous dire à partir de quelle seconde j'ai utilisé LongCat-Video pour poursuivre le récit ? 👇 (1/6)

La réponse est qu'après 2 secondes, tout le contenu sera généré. LongCat-Video excelle dans la création de vidéos de voyage dans le temps en vue subjective, et peut même générer des vidéos de voyage dans le temps de 5 minutes en une seule fois, grâce à un processus très naturel et cohérent qui ressemble beaucoup au monde réel. (2/6)

L'équipe technique définit LongCat-Video comme un modèle du monde. Contrairement aux modèles vidéo classiques qui visent à générer des vidéos aux styles et scènes variés, ce modèle du monde a pour objectif de comprendre la dynamique, les lois physiques et les relations causales du monde réel. NVIDIA a insisté à plusieurs reprises sur ce concept lors de la GTC, et les cas d'application présentés incluaient la simulation de différents schémas de circulation, de conditions routières, de conditions météorologiques et d'éclairage pour les voitures intelligentes, le développement de l'intelligence spatiale pour les robots et la fourniture d'analyses vidéo pour les plateformes de transport et les foules. Par conséquent, dans cette évaluation, je me concentrerai sur la compréhension du monde physique et de la logique causale, par exemple en lui faisant exécuter 6 actions spécifiques. (3/6)

Ou découvrez les vidéos de mukbang réalisées par LongCat-Video. À mesure que la nourriture entre dans la bouche, la portion dans l'assiette diminue, et la personne fait des grimaces expressives typiques du mukbang. Il serait préférable que la netteté et l'éclairage de l'image soient moins accentués. (4/6)

Vous pouvez également observer des personnes vendre des marchandises en vue subjective. Observez attentivement la forme de la bouche du personnage, ses clignements d'yeux et les mouvements de ses mains. Bien qu'il n'y ait pas de son pour le moment, la forme de la bouche ne se répète pas en boucle dans la vidéo d'une minute. De plus, lorsque la main secoue le flacon de parfum, le liquide à l'intérieur oscille légèrement. (5/6)

Pourquoi puis-je exporter nativement une vidéo de 5 minutes sans aucun problème ? Ce système repose sur une méthode de pré-entraînement appelée tâches de continuation vidéo. Durant l'entraînement, LongCat-Video ne visionne pas de courts extraits fragmentés, mais plutôt un grand nombre de séries télévisées. Son système anticipe ainsi naturellement la suite des événements, plutôt que de se concentrer sur l'apparence de la scène. Lorsqu'un modèle regarde une série télévisée, il ne la visionne pas image par image, mais segment par segment et événement par événement. Il comprend la structure en quatre parties (introduction, développement, point culminant et conclusion) des actions, un mécanisme appelé attention causale par blocs. Ainsi, les longues séquences d'actions ne risquent pas d'être facilement fragmentées. Lors de la génération de vidéos longues, LongCat-Video met également en cache les éléments précédemment calculés et immuables, comme le bâtiment en arrière-plan, évitant ainsi un recalcul pour chaque image. Cela lui permet d'étendre la durée de la vidéo jusqu'à 5 minutes. (6/6)

Fil de 卡尔的AI沃茨 (@aiwarts)

Informations sur l'auteur

Contenu du fil