X (Twitter)

Avec la sortie de Veo3 et Sora2, la tendance de développement des modèles vidéo IA est devenue très claire : la fusion audio et vidéo. Aujourd'hui, les développeurs nationaux ont enfin rattrapé leur retard, avec la sortie officielle de Seedance 1.5 pro par Volcano Engine. Elle adopte une solution de cogénération audio et vidéo à la pointe du secteur. Il a démontré un potentiel incroyable en matière de synchronisation audiovisuelle, d'interprétation des dialectes, de contrôle des mouvements de caméra et d'expression narrative. Voici une série de tests que j'ai menés sur la diaphonie et les dialectes.

Outre les voix humaines, la synchronisation entre les effets sonores ambiants et les images est également cruciale, simplifiant ainsi des flux de travail audio IA auparavant complexes. Ceci est particulièrement important dans les scénarios exigeant des sons à haute fréquence, comme les scènes de jeux vidéo et les effets spéciaux de films. Ce modèle comprend non seulement les images et le son, mais aussi la terminologie de la photographie professionnelle, ce qui rend ses mouvements de caméra plus professionnels et continus. Les interprétations des personnages sont également plus nuancées et réalistes. Voici quelques exemples de test ; le taux de réussite réel du tirage de cartes est de 50 %.

La principale différence technique entre Seedance 1.5 Pro et son prédécesseur réside dans le fait qu'il ne considère plus le son comme un accessoire de la vidéo. Grâce à l'architecture native de MMDit et à l'entraînement RLHF pour les scénarios audio et vidéo conjoints, il résout les problèmes des précédentes vidéos d'IA qui étaient « bonnes en qualité d'image mais manquaient d'expression, de son et de sensation cinématographique », en particulier dans les dialectes chinois et le contrôle de la photographie professionnelle, formant ainsi un avantage concurrentiel différencié. Quelques caractéristiques de conception architecturale : 1. Basé sur l'architecture MMDIT (Multi-modal Diffusion Transformer), ce système adopte une conception à double branche et intègre un module de jonction intermodale. Ceci permet une interaction poussée entre les flux visuels et auditifs lors du processus de génération, garantissant une synchronisation temporelle et une cohérence sémantique extrêmement élevées. 2. RLHF avec retour audio. S'appuyant sur SFT, un algorithme d'apprentissage par renforcement (RLHF) a été spécifiquement développé pour le contexte audiovisuel. Il utilise un modèle de récompense multidimensionnel pour évaluer la qualité vidéo, le rendu esthétique et la fidélité audio. 3. Pipeline d'inférence. Sa chaîne d'inférence comprend : mot d'invite utilisateur -> ingénierie du mot d'invite -> encodeur de texte -> modèle génératif conjoint (DiT) -> raffineur vidéo/audio -> sortie. 4. Critères d'évaluation : Le référentiel d'évaluation a été mis à jour. Outre la qualité d'image, une nouvelle dimension, la « vivacité vidéo » (divisée en deux sous-dimensions : action et plan), et quatre dimensions audio (respect des commandes, qualité sonore, synchronisation audiovisuelle et expressivité audio) ont été ajoutées. Rapport technique complet disponible à l'adresse : https://t.co/sc5YoGlMJt

Seedance 1.5 Pro représente une avancée majeure dans la génération vidéo par IA, marquant le passage du cinéma muet au cinéma parlant. Ce logiciel offre un potentiel remarquable en matière de synchronisation audiovisuelle, d'interprétation des dialectes, de contrôle des mouvements de caméra et d'expression narrative. Bien que des améliorations soient encore possibles concernant la prise en charge de certains dialectes (comme le mandarin du Nord-Est et le shanghaïen) et la stabilité des scènes complexes (avec un taux de réussite d'environ 50 %), Seedance 1.5 Pro permet déjà aux créateurs de réaliser des courts métrages, des publicités et même des storyboards. Point d'accès : Seedance 1.5 Pro est désormais officiellement disponible et peut être joué aux endroits suivants : Jimeng AI : Dans le navigateur Web, sélectionnez « Génération vidéo » -> Sélection du modèle : Video 3.5 Pro. Application Doubao : Saisissez « Faire bouger la photo » dans la boîte de dialogue -> Télécharger la photo -> Sélectionnez le modèle 1.5 Pro (en version bêta). API développeur : La semaine prochaine, l’API de modélisation Seedance 1.5 Pro sera disponible sur Volcano Engine. Vous pouvez d’ores et déjà découvrir les effets des modèles au Volcano Ark Experience Center et réserver des services de modélisation. https://t.co/iogZcW2wZ5

Fil de Orange AI (@oran_ge)

Informations sur l'auteur

Contenu du fil