Premier test du modèle vidéo Seedance 1.5 Pro par Zangshifu ! Cette fois-ci, il prend en charge la lecture audio et vidéo simultanée et, plus surprenant encore, la génération de dialectes. Par ailleurs, l'expression des émotions et la complexité des mouvements de caméra ont été considérablement améliorées. Vous pouvez essayer Volcano Engine, Doubao et JiMeng. Commencez par regarder le montage vidéo de test de Master Zang. Vous trouverez ci-dessous les questions et consignes spécifiques du test 👇
Si vous êtes trop pmp.weixin.qq.com/s/LDYnJi5VvUuM…les travaux 🚧, vous pouvez lire l'article complet ici : https://t.co/L6UdEtrxlC
J'ai d'abord trouvé un dialecte du Shaanxi qui n'est peut-être pas si dialectal. Beaucoup de personnes parlant mandarin pourraient le comprendre, mais il comporte aussi des mots à la prononciation très particulière. C'est généralement assez difficile car le texte est très proche du mandarin standard, et de nombreux mots sont difficiles à repérer. Seul un effort considérable permet d'y parvenir correctement. Parallèlement, j'ai choisi la vidéo en direct de dégustation de nouilles du Shaanxi que je regarde quotidiennement, Wensheng Video, afin d'évaluer la qualité de l'intégration image-son. Le fait de manger influence également la parole, ce qui permet de tester la capacité du modèle à analyser la scène. Le résultat fut assez surprenant. Les deux mots relativement difficiles, « 聊咋咧 » et « 美滴很 », furent prononcés correctement, et l'intonation était bien celle du dialecte du Shaanxi. Étonnamment, ils ont assez bien suivi les instructions, sachant qu'il fallait d'abord dire une phrase, puis boire la boisson, puis en dire une autre. Elle ne met pas complètement le biberon dans sa bouche lorsqu'elle boit et parle, car elle sait le retirer avant de prendre une autre gorgée puis de parler. C'est très réaliste.
Puis vint le dialecte du Sichuan. J'ai choisi un scénario très complexe et j'ai ajouté trois personnages d'âges, de sexes et d'apparences différents aux indications, chacun parlant une langue différente. Honnêtement, les indices étaient un peu difficiles, mais Seedance 1.5 Pro m'a vraiment surpris. J'ai réussi à bien les suivre pour terminer la tâche à chaque fois que je tirais une carte. Chacun parlait avec le ton et la hauteur appropriés à son rôle, sans confondre sa voix. Ils prononçaient même assez bien l'expression typique du dialecte sichuanais « 巴适得板 » (ba shi de ban). Je n'ai pas précisé le mode de déplacement de la caméra. Elle s'est automatiquement orientée vers la personne qui parlait en effectuant une rotation de type grue, avec quelques légers tremblements à main levée. La caméra était également positionnée sur le personnage invisible à la table de mah-jong, donnant l'impression d'un tournage à main levée. Avec un arrière-plan flou, tout le monde fait de l'exercice ou vaque à ses occupations, et la conversation a un ton très naturel, ce qui rend cette vidéo de 12 secondes exceptionnellement réaliste.
Enfin, la cuisine cantonaise. Nous avons choisi une scène de restaurant qui reflète bien la vie quotidienne, toujours avec Wen Sheng Video. La qualité de la prise de vue était superbe. Les plans passaient avec fluidité du dos du serveur à son visage, et le panoramique sur le visage de l'homme pendant qu'il parlait était tout à fait naturel. Les mots-clés sont également très bien respectés, avec une attention particulière portée aux détails de chaque mot-clé et au timing de toutes les répliques. Le dialogue m'a paru très authentique, même si je ne comprends pas très bien le cantonais. J'arrivais même à prononcer les sons spécifiques à cette langue. Je suis également ouvert aux commentaires de la part de la « police cantonaise ».
Actuellement, parmi les nombreux films et séries à succès générés par l'IA, les vidéos d'animaux de compagnie générées par l'IA, en plus des images de personnes réelles, représentent également une part importante du trafic. Il est donc nécessaire d'examiner la synchronisation des sons des animaux et des mouvements de leurs lèvres.
On commence avec le mukbang du chat. Le mukbang exige une grande qualité sonore et des expressions faciales impeccables. La nourriture doit avoir la même texture que la vidéo. Ici, le bruit du chat qui mange des raviolis frits est particulièrement appétissant. De plus, le chat a parfaitement reproduit l'expression d'extase quasi humaine pendant qu'il mâchait, et il ne souffre pas du problème de la vallée de l'étrange, ce qui est assez impressionnant.
Apprendre à un chat à parler le langage humain implique non seulement d'analyser la forme de sa bouche, mais aussi sa structure anatomique. Dans de nombreuses vidéos, lorsque des animaux parlent le langage humain, leur langue et leurs dents prennent une forme similaire à celle des humains. Seedance 1.5 Pro est performant à cet égard. Le modèle produit une voix enfantine, et nous avons également utilisé « ... » pour représenter le rythme de la parole et exprimer la somnolence. Lors de la génération du modèle, nous avons ralenti le débit de parole en fonction du rythme correspondant.
Puisque nous avons évoqué la possibilité de combiner audio et image, les performances et l'expression émotionnelle du modèle sont également primordiales. Souvent, les émotions et les performances sont étroitement liées à l'audio ; l'image seule ne suffit pas à produire l'effet recherché.
Ce passage exprime avant tout un mélange complexe de peur, de répression et de supplication. Le regard, particulièrement expressif, traduit efficacement les émotions de peur et d'appréhension. La première phrase fut prononcée à voix basse, comme si la personne hésitait encore. Mais à la deuxième phrase, elle sembla avoir pris confiance, puisqu'elle l'avait déjà dite, et sa voix s'éleva. La scène change simultanément à la deuxième phrase, et son regard devient nettement plus déterminé. Les mouvements du cou et la salive sur les lèvres lors d'une respiration intense sont très bien rendus, ce qui renforce encore le réalisme.
Testez la synchronisation labiale et l'expression faciale dans un style artistique 2D stylisé. Étonnamment, même avec un profil 2D, la synchronisation labiale, les expressions faciales et les changements émotionnels du modèle sont encore très bien représentés, et il n'y a aucune tendance à la conversion en 3D ; c'est assez stable. Le sanglot final se marie parfaitement avec la voix, et l'on entend également des bruits de métal qui s'entrechoquent lors de la rencontre avec le robot ; le souci du détail est vraiment impressionnant.
Le modèle mis à jour gère bien mieux les mouvements de caméra complexes, comme vous avez pu le constater dans les exemples précédents. Passons maintenant à un exercice encore plus difficile.
Il y a d'abord la célèbre technique de mouvement de caméra avancée, le zoom hitchcockien. Ce que nous avons fait était incroyablement absurde. Un zoom hitchcockien continu de 12 secondes, extrêmement rapide, est quelque chose de très difficile à réaliser en réalité, mais nous ne pensions pas que nous y parviendrions. Les expressions des personnages subissent également des changements subtils, tandis que les effets sonores varient en fonction de la vitesse de zoom et du rythme de la respiration du protagoniste, traduisant efficacement la tension émotionnelle des personnages.
Il s'agit d'un test très risqué, et la réglementation pour chaque zone est très détaillée. Comme vous pouvez le constater, le contenu requis par les invites de chaque section est présenté, et une bonne cohérence est maintenue avant et après que la personne soit masquée. Les mouvements de caméra étaient très stables et respectaient scrupuleusement les instructions, notamment lors des virages serrés et de la scène où le personnage s'essuie le front après l'arrêt. Le zoom final sur le visage était particulièrement fluide.
Aujourd'hui, Volcano Engine a officiellement lancé Seedance 1.5 pro, le modèle de génération vidéo pour Doubao. Dès aujourd'hui, les particuliers peuvent le tester sur Jimeng AI, l'application Doubao et le Volcano Ark Experience Center ; les entreprises pourront utiliser l'API du modèle sur Volcano Engine à partir du 23 décembre.
