X (Twitter)

Analyse des fonctions principales du modèle « Kling O1 » Il s'agit du premier modèle de génération vidéo multimodale du secteur qui réalise une « intégration multitâche ». Il peut comprendre diverses entrées telles que du texte, des images et des vidéos, reconnaître automatiquement ce que vous souhaitez faire, puis générer la vidéo souhaitée ou modifier une vidéo existante. Auparavant : un modèle pour chaque tâche. Désormais : un seul modèle O1 fait tout. Le modèle O1 permet une fusion profonde de plusieurs tâches vidéo au niveau sous-jacent : Conversion de texte en vidéo - Génération de références image/sujet (référence à la vidéo) - Montage vidéo et inpainting - Refonte vidéo - Extension des plans et narration en accéléré (Génération des plans suivants/précédents) - Génération vidéo avec contraintes d'images clés Les processus complexes qui nécessitaient auparavant plusieurs modèles ou outils distincts peuvent désormais être réalisés au sein d'un seul moteur. Cela permet non seulement de réduire considérablement les coûts de création et de calcul, mais aussi de jeter les bases du développement d'un « modèle unifié de compréhension et de génération vidéo ».

1. Commandes tout-en-un : Modifiez les vidéos avec une seule phrase ! Cette fonctionnalité est révolutionnaire. O1 prend en charge toute modalité d'entrée, comme le texte, les images, les sujets et les vidéos, et effectue une compréhension sémantique et une analyse des instructions. Analyser l'écran de saisie pour en extraire des commandes exécutables. Les utilisateurs peuvent contrôler et modifier directement les vidéos à l'aide de commandes en langage naturel : Supprimer les passants de l'image. «Changez la scène de jour pour une scène de crépuscule.» « Remplacez la tenue du personnage principal par un trench-coat noir. »

2. Le modèle O1 possède également une « mémoire » ! Le modèle O1 améliore les capacités de modélisation de la cohérence intermodale, en maintenant la stabilité de la structure, des matériaux, de l'éclairage et du style du sujet de référence pendant le processus de génération. Par exemple: Vous téléchargez une photo d'un personnage (un jeune homme noir portant un trench-coat). Puis il apparaît dans différentes scènes : dans la rue, par une nuit pluvieuse, dans l'espace... O1 reconnaîtra automatiquement qu'il s'agit de la même personne, avec une apparence, une couleur de peau et des traits parfaitement identiques.

Il peut même se souvenir de plusieurs personnages principaux et objets. Permettre à différents personnages d'interagir dans la vidéo ; Veillez à conserver une cohérence dans votre style, vos vêtements et votre posture.

3. Super Combinaison : Différentes compétences peuvent être librement cumulées. Le modèle O1 permet des appels combinés entre différentes tâches, par exemple : Ajoutez un nouveau sujet et modifiez simultanément le style de la vidéo ; Élargir simultanément le champ de vision et modifier l'environnement ; Effectuez des ajustements d'éclairage et d'ombre basés sur la sémantique lors du montage vidéo. Grâce à ce mécanisme, le processus de génération vidéo passe d'un simple « appel de fonction » à une « orchestration des tâches au niveau sémantique ». Elle possède un haut degré de flexibilité et un fort potentiel d'innovation.

4. Affichage de saisie de commandes multimodales génération d'images de référence Il prend en charge divers éléments tels que des images de référence, des personnages, des accessoires et des scènes au sein du sujet principal, permettant ainsi une génération flexible de vidéos créatives.

Modifier le corps de la vidéo

Changement de style

Supprimer un objet spécifique

Ajouter des objets spécifiques

Référence vidéo Il permet de référencer du contenu vidéo pour générer le plan précédent/suivant.

Vous pouvez également vous référer aux mouvements de caméra/au travail de la caméra dans la vidéo. Générer des idées créatives

Il permet d'ajouter une première image, ou d'ajouter simultanément la première et la dernière image, ainsi que des descriptions textuelles des transitions de scène, des mouvements de caméra ou des actions des personnages, permettant un contrôle précis de l'ensemble du processus vidéo du début à la fin.

Guide d'analyse et d'utilxiaohu.ai/c/ai-2b1dc7/ai…rincipales du modèle Kling O1 : https://t.co/Zq4Twpsvil

Fil de 小互 (@imxiaohu)

Informations sur l'auteur

Contenu du fil