Cet article d'AniX, fruit d'une collaboration entre Microsoft et l'université Fudan, est fort intéressant. Essayons de le faire interpréter par une IA : Qu'est-ce que ça ferait de placer son propre personnage dans un monde 3D et de le contrôler pour effectuer diverses actions comme dans un jeu vidéo ? Une équipe de Microsoft Research et de l'université Fudan a créé un système appelé AniX, qui est en substance le sujet de cet article. Donnez-lui une scène 3D (générée à l'aide de la technologie 3DGS), donnez-lui un personnage, puis dites-lui en langage naturel de « courir vers l'avant » ou de « jouer de la guitare », et il pourra générer la vidéo correspondante. Les compétences clés s'articulent autour de quatre axes : 1. Cohérence de la scène et des personnages : Dans la vidéo générée, l’apparence des personnages et l’apparence de la scène sont conformes à ce que vous avez fourni. 2. La bibliothèque d'actions est très riche, ne se limite pas à la simple marche et à la course, mais comprend également des gestes (comme faire signe de la main et saluer), et même l'interaction avec des objets (passer des appels téléphoniques et jouer de la guitare). Les données d'entraînement ne contenaient que quatre actions de mouvement de base, mais le modèle a appris à généraliser et à effectuer 142 actions inconnues. (?!) 3. Il permet une interaction continue. Vous pouvez donner des instructions tour après tour, et chaque vidéo générée fera suite à la précédente, assurant ainsi la continuité. C'est comme explorer un véritable monde. 4. La conception du système de contrôle de la caméra est particulièrement ingénieuse. Au lieu d'utiliser un codage mathématique complexe, elle génère directement la trajectoire souhaitée dans la scène 3DGS, puis utilise ce résultat comme entrée conditionnelle. C'est comme montrer au modèle une « vidéo de référence » et lui indiquer comment la caméra doit se déplacer. L'idée centrale de l'ensemble du système est la génération vidéo autorégressive conditionnelle. Les données d'entraînement proviennent de sources très pratiques : des enregistrements de parties de GTA V. Ils ont enregistré plus de 2 000 vidéos, chacune ne contenant qu'une seule action, puis ont fait trois choses : ① Extraire le personnage. ② Compléter l'arrière-plan (à l'aide d'outils de restauration par IA). ③ Identifiez les actions Chaque personnage est représenté par des images prises sous quatre angles différents (de face, de dos, de gauche et de droite), permettant ainsi au modèle de le percevoir ainsi. L'architecture du modèle est basée sur HunyuanCustom (13 milliards de paramètres) et utilise la méthode d'entraînement Flow Matching. Comment intégrer diverses informations conditionnelles au modèle : ① Les masques de scène et de personnage sont directement intégrés au bruit. ② Les commandes textuelles et les images de personnages multivues sont assemblées à la séquence. ③ Différents codes de position sont utilisés pour distinguer ces entrées. Une découverte intéressante a été faite : Le réglage fin du modèle pré-entraîné à l'aide de données de mouvement simples n'a pas seulement préservé la capacité de généralisation du modèle, mais a également amélioré la qualité du mouvement. Cela ressemble à l'entraînement d'un grand modèle de langage ; le réglage fin ne consiste pas à réapprendre des connaissances, mais plutôt à ajuster le « style de parole ». Ils ont utilisé le système d'évaluation WorldScore pour mesurer la qualité visuelle. Les résultats ont surpassé les modèles de génération vidéo existants et les modèles du monde spécialisés sur presque tous les points. Le taux de réussite du contrôle de mouvement est particulièrement révélateur : ① Animations de base : taux de réussite de 100 % ② 142 nouvelles animations : taux de réussite de 80,7 % En comparaison, d'autres modèles ont un taux de réussite inférieur à 50 % sur les mouvements de base, certains atteignant même un taux aussi bas que 3,3 %. La cohérence des rôles a été mesurée à l'aide des scores DINOv2 et CLIP, AniX obtenant respectivement des scores de 0,698 et 0,721, significativement plus élevés que les autres méthodes. Plusieurs choix de conception clés La saisie de caractères multi-vues est effectivement utile. Ils ont comparé les perspectives à vue unique, à double vue et à quatre vues, et ont constaté que les scores de cohérence des personnages augmentaient avec le nombre de perspectives. Le masquage des caractères est également important. Grâce aux informations de masquage pour chaque image, le modèle peut mieux distinguer les personnages dynamiques des scènes statiques. Les conditions visuelles sont clairement utiles pour la génération à long terme. Si les conditions de scène 3DGS ou les conditions de personnage multi-vues sont supprimées, la qualité générée diminuera considérablement avec le temps. Le modèle original met 121 secondes pour générer 93 images de vidéo 360P (H100 unique). Après distillation avec DMD2 en version 4 étapes, cela ne prend que 21 secondes avec une perte de qualité quasi nulle. Quelques points intéressants me sont venus à l'esprit : La valeur des données de jeu. Les jeux comme GTA V fournissent une multitude de données d'entraînement structurées, avec des personnages, des environnements et des actions facilement accessibles. Il s'agit peut-être d'une source de données sous-estimée. Stratégie de formation hybride. Ils ont ensuite ajouté 400 vidéos en prises de vues réelles, en utilisant les étiquettes « rendu » et « réel » pour faire la distinction entre le jeu et le style de la vie réelle. Cette simple annotation de données permet au modèle d'apprendre à distinguer différents styles visuels, ce qui est plutôt ingénieux. La source de la capacité de généralisation. Le fait de s'entraîner avec seulement 4 mouvements de base, tout en étant capable d'effectuer 142 nouveaux mouvements, démontre que le modèle pré-entraîné contient déjà une mine de connaissances sur le mouvement humain. Le réglage fin consiste simplement à activer et à aligner ces connaissances. L'approche du contrôle de la caméra. Le rendu direct des vidéos de référence est plus intuitif et contrôlable que leur encodage en représentations mathématiques abstraites. Cette philosophie de conception « ce que vous voyez est ce que vous obtenez » mérite d'être étudiée. L'article n'énonce pas explicitement ses limites, mais les problèmes suivants sont manifestes : Les données d'entraînement sont encore insuffisantes ; plus de 2 000 vidéos, ce n'est pas beaucoup pour une tâche aussi complexe. Le taux de réussite des actions d'interaction avec les objets (80,7 %) est bon, mais il y a encore de la marge pour l'améliorer. Bien que des temps de génération plus longs montrent une certaine amélioration, la qualité continue de se dégrader avec le temps, comme le montrent les graphiques. Il s'agit probablement d'un problème courant avec les modèles autorégressifs. La scène doit être au format 3DGS, ce qui représente un obstacle pour les utilisateurs ordinaires. Bien qu'il puisse être généré à l'aide d'outils comme Marble, cela ajoute une couche de dépendance supplémentaire. Globalement, AniX a franchi une étape importante dans la génération d'animations de personnages contrôlables. Vous n'avez pas besoin de quantités massives de données ni de conceptions complexes ; si vous trouvez la bonne approche, vous pouvez obtenir d'excellents résultats avec de petites quantités de données.
L'artiarxiv.org/pdf/2512.17796ible à l'adresse suivante : https://t.co/0RSMzZPuon