Medeo 1.0 est enfin en ligne, et je crois que c'est le premier agent vidéo vraiment performant. Je l'ai essayé et j'ai été assez impressionné. Ses caractéristiques principales incluent : - Permet une modification très flexible via le langage naturel - Prend en charge les invites extrêmement longues dépassant 1 000 caractères. - Il offre d'excellentes capacités de généralisation et peut être utilisé dans différents styles et secteurs d'activité. J'ai rédigé un tutoriel de base et exploré trois très bonnes suggestions de mots-clés 👇 Les 30 premiers commentaires et partages recevront un code d'invitation.
Si vous êtes trop pmp.weixin.qq.com/s/ltoRVzX-6MHk…les travaux �medeo.app/create?v=2rticle complet ici : https://t.co/tLQ6ae2zz2 Essayez Medeo ici : https://t.co/dC0n9gQF5W
Apprenez quelques opérations de base 1️⃣ La première partie présente certains de leurs modèles. Il ne s'agit pas seulement du style visuel ; cela inclut une série d'exigences essentielles pour des vidéos de haute qualité, telles que les images, les dialogues, le style de montage et la musique. Vous pouvez choisir celui qui vous convient et l'appliquer directement. 2️⃣ La deuxième partie est facile à comprendre. Vous pouvez choisir de générer une vidéo au format paysage ou portrait. Actuellement, seuls les deux formats d'image courants, 16:9 et 9:16, sont pris en charge. 3️⃣ La troisième partie offre de nombreuses options de personnalisation. Pour des réglages plus précis, vous pouvez choisir la durée de la vidéo, le type de sortie (images ou vidéos uniquement), le style d'image et l'ajout d'une voix off. 4️⃣ La dernière étape consiste à importer les fichiers. Vous pouvez importer directement du texte et des images depuis une URL ou importer vous-même le texte et les images correspondants.
En résumé, vous pouvez commencer à créer en décrivant simplement vos besoins en matière de génération vidéo dans la zone de saisie. De plus, vous n'avez pas besoin de décrire vos exigences trop en détail ici, car Medeo prend en charge les modifications ultérieures de la vidéo générée en utilisant le langage naturel. Par exemple, s'il y a deux clips qui se répètent, vous pouvez lui indiquer leurs positions, puis le laisser les régénérer et les remplacer. Il peut effectuer ces opérations parfaitement. Bien sûr, une approche encore plus simple consiste à le laisser trouver lui-même le matériel en double et le remplacer.
Medeo prend en charge la quasi-totalité des modèles d'image et de vidéo courants sur le marché. Grâce à sa très grande capacité de généralisation, vous pouvez spécifier les modèles utilisés pour générer des images ou des vidéos à l'aide d'invites, ou utiliser directement un modèle comme Sora pour générer une vidéo complète. Il décide même astucieusement lui-même quand utiliser des images textuelles et quand utiliser des images.
En plus de prendre en charge l'édition en langage naturel, Medeo permet également d'éditer sur le côté gauche à l'aide de votre presse-papiers habituel, ce qui constitue une expérience unique. Vous pouvez faire glisser les lignes de délimitation de chaque scène pour contrôler sa durée, modifier le texte correspondant directement dans la section Script audio, et même définir le volume et la durée de chaque segment audio.
vidéos scientifiques de style maquette miniature L'inspiration m'est venue principalement des suggestions Nano Banana Pro que j'ai créées il y a quelques jours. J'ai rédigé une consigne détaillant les exigences relatives au style visuel, aux dialogues en voix off et à la cohérence des ressources. Le résultat final était visuellement époustouflant, avec une animation excellente. Cependant, la narration était quelque peu déroutante. Je lui ai donc demandé d'y réfléchir lui-même et de penser à la manière d'écrire le scénario pour ce type de contenu de vulgarisation scientifique. Après qu'il eut réfléchi à son travail et élaboré son premier plan d'amélioration, j'ai discuté avec lui de certaines lacunes, amélioré la structure de son explication, et finalement, je lui ai demandé de le mettre en œuvre. Le résultat fut excellent.
Suite à notre discussion avec lui, j'ai également optimisé les mots clés finaux : Consignes du projet : Guide miniature de l’univers du roman ou courte vidéo éducative basée sur une maquette. Thèmes : [Introduction à l’univers de Fondation et de l’Empire galactique] ou [Vidéo éducative sur la récupération synchronisée des deux propulseurs d’appoint du Falcon Heavy de SpaceX]. Objectif du projet : Créer un court métrage éducatif basé sur l’univers d’un roman ou d’un événement réel, en utilisant une perspective de « bac à sable numérique » et des commentaires humoristiques et spirituels. I. Principes visuels : Création d'une maquette 3D à effet tilt-shift à partir d'une image brute avec Gemini : Définition de la scène : Identifiez une scène célèbre ou un lieu emblématique. Créez une maquette 3D détaillée de cette scène selon une perspective axonométrique centrée sur le cadre. Le style doit s'inspirer du rendu délicat et doux des animations DreamWorks. Recréez les détails architecturaux, les mouvements des personnages et l'atmosphère de l'époque, qu'il s'agisse d'une journée orageuse ou d'un après-midi paisible, en veillant à ce qu'ils se fondent naturellement dans l'éclairage et les ombres de la maquette. Simulation macro : Simulez des personnes observant une table de sable avec un objectif macro. Utilisez abondamment la faible profondeur de champ et les effets tilt-shift ; l'arrière-plan doit être flou. Mouvements de caméra : Guidez le regard par des panoramiques fluides, des zooms latéraux et des mises au point sélectives, plutôt que de vous concentrer sur le mouvement de l'objet. II. Audio et personnages : Pour l'arrière-plan, évitez un simple fond blanc. Créez un environnement vide autour de la maquette avec un léger effet de lavis et une brume légère. La tonalité des couleurs doit être élégante pour donner à l'image une impression de respiration et de profondeur, soulignant ainsi la préciosité du modèle central. II. Personnage du narrateur : Perspective : Un « créateur » détaché ou un « observateur multidimensionnel ». Ton : Léger et rapide, empreint d’un humour sec et d’une langue acérée. Utilisant un ton décontracté et naturel pour déconstruire des situations cruelles ou grandioses, il brise le quatrième mur pour satiriser l’absurdité du monde. 3. Musique : La musique de fond est légère et joyeuse, semblable à celle de SimCity ou Civilization, ce qui donne un sentiment d'exploration et contraste avec le contenu dense des visuels. IV. Modèle de structure de script : Pour la présentation et l'exécution d'une vision du monde : l'essentiel de la rédaction de scénarios pour les vidéos de vulgarisation scientifique sur les visions du monde réside dans la clarté et la systématisation de l'information, plutôt que dans la création d'une ambiance particulière. Il faut d'abord définir la structure de base de cette vision du monde, en incluant les lieux clés (quelles planètes, villes, régions), les personnages principaux (leur identité et leur rôle), une chronologie (l'ordre chronologique des événements majeurs) et les concepts ou lois fondamentaux qui régissent son fonctionnement. Le scénario ne doit pas rechercher le style littéraire ni le suspense, mais plutôt utiliser un langage documentaire simple pour expliquer clairement le « quoi », le « pourquoi » et le « comment ». Chaque information doit être précise, en évitant les descriptions abstraites. La longueur est cruciale ; les informations clés ne doivent pas être condensées pour respecter le rythme de la vidéo. Il est préférable d'expliquer en détail cette vision du monde en 90 à 120 secondes plutôt que de laisser les spectateurs perplexes en 30 secondes. Surtout, avant d'écrire, il faut se poser la question suivante : un spectateur totalement novice en la matière peut-il comprendre de quoi cet univers est composé, comment il fonctionne et quelles histoires se dévoilent après le visionnage ? Si la réponse est non, alors c'est un scénario de vulgarisation scientifique raté. Pour une véritable vulgarisation scientifique : l’essence même de la rédaction de courts métrages de vulgarisation scientifique réside dans la construction d’un parcours cognitif complet, et non dans la simple présentation de résultats. Il faut d’abord établir une structure narrative claire, généralement en quatre parties : « accroche-problème-solution-importance ». L’introduction utilise des visuels percutants ou des analogies marquantes pour capter rapidement l’attention et éveiller la curiosité du public. Ensuite, le contexte et le problème doivent être expliqués, en précisant « pourquoi nous devons nous y intéresser », et en contrastant les difficultés ou les limites des méthodes traditionnelles afin d’aider le public à comprendre la nécessité de l’innovation technologique. La section suivante constitue le cœur de la vulgarisation scientifique, la partie la plus souvent négligée, mais pourtant cruciale. Elle doit détailler « comment ils ont procédé », en décomposant les technologies complexes en 3 à 5 étapes compréhensibles, en expliquant les principes de chaque étape de manière concise, à l’aide de données concrètes et d’analogies parlantes pour rendre les concepts abstraits tangibles. Enfin, l’importance doit être soulignée ; la vidéo ne doit pas se terminer superficiellement, mais revenir au sujet initial, en expliquant l’impact pratique ou la valeur inspirante de la technologie. En matière d'expression linguistique, il est important de bien utiliser le contraste pour créer un impact, par exemple en comparant avant et après les « méthodes traditionnelles et les nouvelles technologies », en utilisant des chiffres concrets plutôt que des adjectifs abstraits pour quantifier la difficulté et les résultats, et en employant des analogies vivantes pour transformer les termes techniques en expériences quotidiennes.
Vidéo promotionnelle pour des produits de commerce électronique liés au style de vie Il y a quelques jours, j'ai conçu un clavier spécialement pour Vibe Coding. Je voulais donc tester son ergonomie pour les vidéos promotionnelles de produits e-commerce réalisées par Medio. Ce lieu permet principalement de tester la précision de la reproduction. J'ai donc créé un système permettant de transformer n'importe quel produit en vidéo promotionnelle pour ce style de vie qui s'apparente à un parfum. La reproduction du produit final était véritablement parfaite. Même les icônes, les couleurs des boutons et les positions d'ouverture du produit ont été reproduites.
Suggestions pour les vidéos promotionnelles des produits Medeo Lifestyle : Votre rôle Vous êtes directeur artistique et défenseur d'une esthétique sensorielle. Votre expertise réside dans la déconstruction de tout produit physique (aussi industrialisé ou technologique soit-il) en une expérience artistique et un style de vie. Parmi vos références stylistiques figurent Atelier Cologne, Aesop, Loewe et le magazine Kinfolk. Les produits figurant dans les images du storyboard doivent correspondre aux images produits que j'ai téléchargées. J'ai utilisé Gemini pour générer les images du storyboard et Sora pour générer la vidéo. Tâche principale Recevoir les images ou descriptions de produits téléchargées par les utilisateurs et utiliser une combinaison de techniques d'« art fractal » et de « tranche de vie » pour générer un script vidéo conceptuel de 30 à 60 secondes et des mots-clés visuels. Articles interdits : L'utilisation de clichés technologiques tels que « cyberpunk », « high-tech », « néons » et « projection holographique » est interdite. Il est interdit de lister les paramètres fonctionnels comme dans un manuel d'utilisation. Les images ne doivent pas être rigides ou figées. La logique d'abstraction est utilisée pour traiter les données. Vous devez traiter les produits d'entrée en suivant les trois étapes suivantes : Étape 1 : Déconstruction visuelle Extraire les principales caractéristiques géométriques du produit (cercle, carré, chanfrein, texture). Extraire les qualités émotionnelles des matériaux du produit (la froideur du métal, la chaleur du bois, la transparence du verre et la douceur du tissu au contact de la peau). Instructions de génération : À partir de ces géométries et matériaux, générez un ensemble d’arrière-plans abstraits dynamiques, fractals ou kaléidoscopiques. Le produit apparaîtra et disparaîtra ainsi au sein de ce flux géométrique abstrait, créant un « rythme » visuel. Deuxième étape : Synesthésie Transformer la « fonction » du produit en « sensation ». Trouvez un style de vie exceptionnel et créez un montage qui l'intègre aux visuels du produit. Étape 3 : Contexte humain Le décor doit être à la fois confortable et sophistiqué (dominé par la lumière naturelle). Le personnage doit être détendu et s'amuser, dans un état de « flow », plutôt que de « travailler » ou de « faire fonctionner une machine ». Modèle de sortie Veuillez fournir la solution en respectant scrupuleusement la structure suivante, en fonction du produit saisi par l'utilisateur : A. Définition de la clé visuelle Réglages d'éclairage et d'ombres : (par exemple, aube, réflexion diffuse de l'après-midi, lumière des bougies, effet Tyndall) Matériaux et couleurs principaux : (Extraction de la relation de complémentarité entre les couleurs du produit et les couleurs ambiantes) Éléments abstraits : (Décrire les motifs fractals qui évoluent à partir des formes des produits, comme « un labyrinthe géométrique s’étendant à l’infini composé de carrés de touches de clavier ») B. Déroulement du storyboard vidéo (Veuillez inclure 5 à 6 plans, en alternant entre « gros plan macro », « transition fractale abstraite » et « plan large lifestyle ») Plan 1 [Introduction] : Un flux extrêmement lent d'un environnement vide ou d'une géométrie abstraite (générée à partir des caractéristiques du produit). Objectif 2 [Tactile] : Macro ultime. Se concentre sur la texture des matériaux. Plan 3 [Interaction] : Un moment d'utilisation extrêmement élégante et lente du personnage (combiné à la lumière naturelle). Lentille 4 [Synesthésie] : Il s’agit de l’art fractal/génératif que vous avez mentionné. Il utilise des images pour représenter les formes de la « pensée/du son/de l’odeur ». Objectif 5 [Coexistence] : Le produit est placé dans un environnement vivant, en coexistence avec des livres, des plantes ou des tasses à thé. C. Conception audio Style musical : Doit être composé d'instruments acoustiques (piano, violoncelle, harpe) ou de sons ambiants minimalistes. Foley : Sons ASMR extrêmement détaillés (vent, pages qui se tournent, respiration). D. Texte du monologue (Générez un récit qui se lit comme un poème en prose, sans mentionner aucun terme technique, en abordant uniquement les thèmes du temps, de l'espace, de l'inspiration et de la camaraderie.) Voici le texte descriptif du produit, vous pouvez vous y référer :
Pourquoi réussissent-ils si bien ? J'ai appris, grâce à leur compte officiel et à nos conversations quotidiennes, comment ils ont mis en place une architecture d'agent qui allie qualité et flexibilité. Les produits de production vidéo traditionnels ont toujours été confrontés au défi de résoudre et d'équilibrer le triangle impossible que représentent l'accessibilité, les coûts de production et le contrôle des effets.
Certains produits peuvent générer un contenu très complexe et de haute qualité, mais ils présentent en même temps une barrière à l'entrée très élevée et un coût d'apprentissage important. Certains des produits que nous avons mentionnés, appelés « produits shell », intègrent rapidement divers modèles et outils, mais ils fonctionnent indépendamment, obligeant les utilisateurs à sélectionner les modèles correspondants et à effectuer des modifications complexes à l'aide d'outils traditionnels. Enfin, certains produits d'agents se résument à des flux de travail. Si l'accès à ces solutions est facilité, la création de contenu s'en trouve compromise. Les utilisateurs lambda doivent attendre la mise à jour des modèles ou des flux de travail, une opération très gourmande en ressources humaines.
Medeo a choisi de construire un Gensystem, un langage spécifiquement conçu pour les agents vidéo, composé de trois parties principales : Le premier est Medeo DSL : un « langage de production vidéo » spécifiquement conçu pour décrire le contenu vidéo et les méthodes de production, capable de traduire les commandes vagues en langage naturel des utilisateurs en opérations de montage vidéo que le modèle peut comprendre. Il y a ensuite le système de contexte : un système de contexte construit à partir d’informations telles que les ensembles d’outils et les méthodes de production vidéo, qui permet d’adapter le contexte de production vidéo le plus professionnel aux instructions et aux besoins de l’utilisateur dans chaque conversation. Enfin, il y a l'environnement : il s'agit d'une interface de montage vidéo qui permet aux utilisateurs de travailler et de contrôler le processus de montage en parallèle avec l'IA ; c'est ce que nous avons précédemment appelé montage hybride.
Comme je l'ai mentionné il y a quelques jours, j'ai deux principes pour la rédaction des infobulles Medeo : Soyez aussi concis que possible, minimisez le nombre d'exigences spécifiques et formulez-le de manière aussi générale que possible afin que les mots clés puissent prendre en charge davantage de fonctionnalités et de scénarios. Cependant, ce qui m'a incité à mettre en œuvre ces deux approches imposait en réalité des exigences suffisamment élevées au modèle lui-même et à l'ensemble du système d'agents. Ce système doit pouvoir compléter le contexte lui-même, et en même temps posséder un certain degré d'intelligence, que ce soit en matière de conception d'images, de montage vidéo ou de construction vidéo. Par conséquent, la capacité d'un système à prendre en charge ces deux styles et principes d'écriture peut, dans une certaine mesure, déterminer ses capacités de gestion du contexte, ses capacités d'acquisition du contexte et son niveau d'intelligence.
Je suis très heureux de disposer d'un tel produit dans le domaine des certificats de domaine vidéo, qui me permet de créer de tels mots d'invite et d'utiliser un seul mot d'invite pour finaliser la construction d'un nombre suffisant de domaines ou de fonctionnalités. Merci à tous, c'est tout pour aujourd'hui.








