X (Twitter)

Encore un succès 😌 Kling AI lance VIDEO 2.6, un modèle de synchronisation audio-visuelle natif. Tout comme le Veo 3, ce modèle peut générer du son directement, sans avoir besoin de doublage externe ni de synthèse en post-production. inclure: • Dialogues à plusieurs personnages en chinois et en anglais (Pisces) • Effets sonores ambiants (vent, bruits de pas, bruits de collision, etc.) • Voix émotionnelle (atmosphères telles que la tension, la détente et le mystère) Le son et l'image sont parfaitement synchronisés, avec des mouvements des lèvres, un rythme et une ambiance constants. Les éléments visuels et audio ont été générés par un processus d'inférence unique utilisant le même modèle. Sans être modulaire ni assemblé par morceaux, il évite les « mouvements des lèvres mal alignés et les émotions décousues » que l'on retrouve dans les vidéos d'IA traditionnelles. Prend en charge la génération 1080p en 5/10 secondes. Le personnage peut faire : • Parler plus naturellement • Les émotions et la voix sont cohérentes • Les expressions faciales correspondent mieux au dialogue Plus besoin de chercher des sources sonores pour l'ambiance. Le système peut automatiquement faire correspondre l'image : • Effets sonores pour différentes scènes, notamment la pluie, les vagues et le vent ; • Bruits de pas, de coups à la porte et de frottements ; • Explosions et bruits mécaniques. La version vidéo 2.6 est plus stable que la précédente en termes d'action, de transitions de caméra et de rythme narratif. • Les transitions entre les scènes sont plus naturelles. • Les personnages présentent une plus grande cohérence d'un plan à l'autre. • Les actions sont moins sujettes aux chutes d'images soudaines.

Fil de 小互 (@imxiaohu)

Informations sur l'auteur

Contenu du fil