Medeo 1.0 finalmente está en línea y creo que este es el primer agente de video verdaderamente significativo. Lo probé y me sorprendió bastante. Sus características incluyen: - Admite modificaciones altamente flexibles a través del lenguaje natural. - Admite indicaciones extremadamente largas que superan los 1000 caracteres. - Ofrece excelentes capacidades de generalización y se puede utilizar en distintos estilos y verticales. He escrito un tutorial básico y he explorado tres conjuntos realmente buenos de sugerencias de palabras clave 👇 Los primeros 30 comentarios y reposts recibirán un código de invitación.
Si eres demasiado pmp.weixin.qq.com/s/ltoRVzX-6MHk… construcciónmedeo.app/create?v=2ículo largo aquí: https://t.co/tLQ6ae2zz2 Prueba Medeo aquí: https://t.co/dC0n9gQF5W
Aprenda algunas operaciones básicas 1️⃣ La primera parte incluye algunas de sus plantillas. No se trata solo del estilo visual; incluye una serie de requisitos esenciales para vídeos de alta calidad, como elementos visuales, diálogos, estilo de edición y música. Puedes elegir la que te guste y aplicarla directamente. 2️⃣ La segunda parte es fácil de entender. Puedes elegir entre generar un vídeo horizontal o vertical. Actualmente, solo se admiten las dos relaciones de aspecto habituales: 16:9 y 9:16. 3️⃣ La tercera parte admite una gran cantidad de configuraciones personalizadas. Si necesitas más detalles, puedes elegir la duración del video, el tipo de salida (solo imágenes o videos), el estilo de imagen y la voz en off. 4️⃣ La última parte es la subida de material. Permite extraer texto e imágenes directamente de la URL como materiales, o bien, puedes subirlos tú mismo.
Básicamente, puedes comenzar a crear simplemente describiendo tus necesidades de generación de video en el cuadro de entrada. Además, no es necesario que describas tus requisitos con demasiado detalle aquí, porque Medeo admite modificaciones posteriores al vídeo generado utilizando lenguaje natural. Por ejemplo, si hay dos clips repetidos, puedes indicarle la posición de esos dos clips y luego dejar que los regenere y los reemplace. Puede realizar estas operaciones perfectamente. Por supuesto, un enfoque aún más sencillo es dejar que él mismo encuentre el material duplicado y lo reemplace.
Medeo admite casi todos los modelos de imágenes y vídeos comunes del mercado. Debido a su gran capacidad de generalización, puedes especificar qué modelos utiliza para generar imágenes o vídeos mediante indicaciones, o utilizar directamente un modelo como Sora para generar un vídeo completo. Incluso decide inteligentemente por sí mismo cuándo utilizar imágenes basadas en texto y cuándo utilizar imágenes basadas en imágenes.
Además de admitir la edición en lenguaje natural, Medeo también admite la edición en el lado izquierdo utilizando el portapapeles habitual, lo que constituye una experiencia única. Puedes arrastrar las líneas de límite de cada escena para controlar su duración, editar el texto correspondiente directamente en la sección Script de audio e incluso definir el volumen y la duración de cada segmento de audio.
Vídeos científicos de modelos en miniatura La inspiración surgió principalmente de los prompts de Nano Banana Pro que hice hace unos días. Escribí un mensaje que detalla los requisitos relacionados con el estilo visual, el diálogo de voz en off y la coherencia de los activos. El producto final fue visualmente impactante, con una animación excelente. Sin embargo, la narrativa resultó algo confusa. Entonces le pedí que reflexionara sobre ello y pensara en cómo escribir el guión para este tipo de contenido de divulgación científica. Después de que reflexionara sobre su propio trabajo y elaborara su primer plan de mejora, hablé con él sobre algunas deficiencias, mejoré la estructura de la explicación y finalmente le pedí que lo implementara. El resultado fue perfecto.
Basándome en nuestra conversación con él, también optimicé las palabras finales del mensaje: Instrucciones del proyecto: Miniguía sobre la cosmovisión de la novela o breve video educativo basado en una maqueta. Temas: [Introducción a la cosmovisión de la Fundación-Imperio Galáctico] o [Video educativo sobre la recuperación sincrónica de los propulsores duales Falcon Heavy de SpaceX] Objetivo del proyecto: Crear un cortometraje educativo basado en la cosmovisión de una novela o un hecho real, utilizando una perspectiva de "caja de arena de escritorio" y comentarios humorísticos e ingeniosos. I. Principios visuales: Uso de Gemini para crear un modelo en miniatura con efecto tilt-shift de una escena a partir de una imagen original. Definición de la escena: Identifica una escena famosa representativa o una ubicación central. Construye un modelo en miniatura 3D detallado de esta escena desde una perspectiva axonométrica en el centro del encuadre. El estilo debe adoptar el estilo de renderizado delicado y suave de DreamWorks Animation. Debes recrear los detalles arquitectónicos, los movimientos de los personajes y la atmósfera ambiental de la época, ya sea un día tormentoso o una tarde tranquila, asegurándote de que se integren de forma natural con la iluminación y las sombras del modelo. Simulación macro: Simula a personas observando una mesa de arena con una lente macro. Utiliza con frecuencia la profundidad de campo reducida y los efectos tilt-shift; el fondo debe estar desenfocado. Movimiento de cámara: Guía la vista mediante movimientos panorámicos suaves, zoom dolly y enfoque de rack, en lugar de centrarte en el movimiento del objeto. II. Audio y personalidad: En cuanto al fondo, evita usar un fondo blanco puro y simple. Crea un entorno vacío alrededor del modelo con un ligero efecto de lavado de tinta y una ligera neblina. El tono de color debe ser elegante para dar al cuadro una sensación de respiración y profundidad, resaltando la preciosidad del modelo central. II. Personaje del narrador: Perspectiva: Un "creador" distante u "observador de alta dimensión". Tono: Ligero y dinámico, lleno de humor mordaz y una lengua afilada. Utiliza un tono relajado y desenfadado para deconstruir escenarios crueles o grandiosos, rompiendo la cuarta pared para satirizar el absurdo del mundo. 3. Música: La música de fondo es ligera y alegre, similar a la de SimCity o Civilization, que tiene un sentido de exploración y contrasta con el pesado contenido de las imágenes. IV. Plantilla de estructura de guion: Para la introducción y ejecución de cosmovisiones: la clave de la escritura de guiones para videos de divulgación científica sobre cosmovisión reside en la información sistemática y clara, más que en la creación de una atmósfera. Primero, se debe delinear la estructura básica de la cosmovisión, incluyendo ubicaciones clave (planetas, ciudades, regiones), figuras clave (sus identidades y roles), una línea de tiempo (el orden cronológico de los eventos principales) y los conceptos o leyes fundamentales que sustentan el funcionamiento del mundo. El guion no debe buscar la exuberancia literaria ni el suspense, sino usar un lenguaje documental sencillo para explicar con claridad el "qué", el "por qué" y el "cómo". Cada punto de información debe ser específico, evitando descripciones abstractas. Una duración suficiente es crucial; la información clave no debe condensarse para abreviar el video. Es mejor explicar la cosmovisión a fondo en 90-120 segundos que confundir a los espectadores en 30 segundos. Y lo más importante, antes de escribir, es preguntarse: ¿puede un espectador completamente ajeno a este mundo comprender de qué se compone, cómo funciona y qué historias se desarrollan después de verlo? Si la respuesta es no, entonces se trata de un guión de divulgación científica fallido. Para una auténtica divulgación científica, la clave de la escritura de guiones para vídeos cortos de divulgación científica reside en construir un ciclo cognitivo completo, en lugar de simplemente presentar resultados. Primero, se debe establecer una estructura narrativa clara, generalmente en cuatro partes: "gancho-problema-solución-importancia". La introducción utiliza imágenes impactantes o analogías extremas para captar rápidamente la atención y despertar la curiosidad del público. A continuación, se deben explicar los antecedentes y el problema, aclarando por qué debemos prestar atención a esto y contrastando las dificultades o limitaciones de los métodos tradicionales para ayudar al público a comprender la necesidad de la innovación tecnológica. La siguiente sección es el segmento principal de divulgación científica, la parte más fácil de pasar por alto, pero crucial. Debe desglosar cómo lo hicieron, diseccionando tecnologías complejas en tres a cinco pasos comprensibles, explicando los principios de cada paso con un lenguaje conciso y utilizando datos concretos y analogías vívidas para hacer tangibles los conceptos abstractos. Finalmente, se debe realzar la importancia; el vídeo no debe terminar superficialmente, sino que debe retomar el tema, explicando el impacto práctico o el mayor valor inspirador de la tecnología. En términos de expresión lingüística, es importante hacer un buen uso del contraste para crear impacto, como una comparación antes-después de "métodos tradicionales versus nuevas tecnologías", utilizando números concretos en lugar de adjetivos abstractos para cuantificar la dificultad y los resultados, y empleando analogías vívidas para transformar términos técnicos en experiencia cotidiana.
Vídeo promocional para productos de comercio electrónico de estilo de vida Hace unos días, diseñé un teclado específicamente para Vibe Coding. Quería comprobar su eficacia en Medio para vídeos promocionales de productos de comercio electrónico. En este lugar se prueba principalmente la precisión de la reproducción. Así que creé una propuesta para convertir cualquier producto en un vídeo promocional de este estilo de vida similar al perfume. La reproducción final del producto fue realmente perfecta. Incluso se han replicado los íconos, los colores de los botones y las posiciones de apertura del producto.
Indicaciones para videos promocionales de productos de estilo de vida Medeo: Tu rol Eres un director de arte visual que defiende la estética sensorial. Tu especialidad es deconstruir cualquier producto físico (por muy industrializado o tecnológico que sea) para convertirlo en una experiencia artística y un estilo de vida. Tus referencias estilísticas incluyen Atelier Cologne, Aesop, Loewe y la revista Kinfolk. Los productos en las imágenes del storyboard deben coincidir con las imágenes que subí. Usé Gemini para generar las imágenes del storyboard y Sora para generar el video. Tarea principal Reciba imágenes o descripciones de productos cargadas por los usuarios y utilice una combinación de técnicas de "Arte fractal" y "Rebanadas de vida" para generar un guión de video conceptual de 30 a 60 segundos y palabras clave visuales. Artículos prohibidos: Se prohíbe el uso de clichés tecnológicos como "ciberpunk", "alta tecnología", "luces de neón" y "proyección holográfica". Está prohibido enumerar parámetros funcionales como en un manual de usuario. Las imágenes no deben ser rígidas ni tiesas. La lógica de abstracción se utiliza para procesar datos. Debes procesar los productos de entrada en los siguientes tres pasos: Paso 1: Deconstrucción visual Extraer las características geométricas principales del producto (círculo, cuadrado, chaflán, textura). Extraer las cualidades emocionales de los materiales del producto (la frialdad del metal, la calidez de la madera, la transparencia del vidrio y la suavidad de la tela para la piel). Generar instrucciones: A partir de estas geometrías y materiales, genere un conjunto de fondos dinámicos abstractos, fractales o caleidoscópicos. Esto permite que el producto aparezca y desaparezca dentro del flujo geométrico abstracto, creando un ritmo visual. Paso dos: sinestesia Transformar la “función” del producto en “sensación”. Encuentre un estilo de vida maravilloso y cree un montaje que lo incorpore a las imágenes del producto. Paso 3: Contexto humano El diseño del escenario debe ser a la vez habitable y sofisticado (dominado por la luz natural). El personaje debe estar relajado y disfrutando, en un estado de “flujo”, en lugar de “trabajar” u “operar una máquina”. Plantilla de salida Genere la solución estrictamente de acuerdo con la siguiente estructura según el producto ingresado por el usuario: A. Definición de clave visual Configuración de iluminación y sombras: (por ejemplo, amanecer, reflejo difuso de la tarde, luz de velas, efecto Tyndall) Materiales y colores básicos: (Extracción de la relación complementaria entre los colores del producto y los colores ambientales) Elementos abstractos: (Describe patrones fractales que evolucionan a partir de formas de productos, como "un laberinto geométrico que se extiende infinitamente compuesto por cuadrados de teclas") B. Flujo del guion gráfico del video (Incluya de 5 a 6 tomas, alternando entre "primer plano macro", "transición fractal abstracta" y "toma general de estilo de vida") Toma 1 [Introducción]: Un flujo extremadamente lento de un entorno vacío o geometría abstracta (generada a partir de características del producto). Lente 2 [Táctil]: Macro excepcional. Se centra en la textura del material. Toma 3 [Interacción]: Un momento de uso extremadamente elegante y lento del personaje (combinado con luz natural). Lente 4 [Sinestesia]: Se refiere al arte fractal/generativo que mencionaste. Utiliza imágenes para representar las formas del pensamiento, el sonido y el olor. Lente 5 [Coexistencia]: El producto se coloca en un entorno vivo, coexistiendo con libros, plantas o tazas de té. C. Diseño de audio Estilo musical: Deben ser instrumentos acústicos (piano, violonchelo, arpa) o sonidos ambientales minimalistas. Foley: Sonidos ASMR extremadamente detallados (viento, cambio de página, respiración). D. Texto del monólogo (Generar una narración que se lea como un poema en prosa, sin mencionar ningún término técnico, solo discutiendo el tiempo, el espacio, la inspiración y el compañerismo). El texto de descripción del producto es el siguiente, puedes consultarlo:
¿Por qué pueden hacerlo bien? Aprendí de su cuenta oficial y de sus conversaciones diarias lo que hicieron para lograr una arquitectura de agente que equilibra calidad y flexibilidad. Los productos de producción de video tradicionales siempre se han enfrentado al desafío de resolver y equilibrar el triángulo imposible de accesibilidad, costos de producción y control de efectos.
Algunos productos pueden producir contenido muy complejo y de alta calidad, pero al mismo tiempo suponen una barrera de entrada muy alta y un coste de aprendizaje elevado. Algunos de los productos que hemos mencionado, llamados "productos shell", integran rápidamente varios modelos y herramientas, pero funcionan de forma independiente, lo que requiere que los usuarios seleccionen los modelos correspondientes y realicen ediciones complejas dentro de las herramientas tradicionales. Finalmente, existen algunos productos de agente que son esencialmente flujos de trabajo. Se ha reducido la barrera de entrada, pero se ha sacrificado la amplitud y diversidad de la creación de contenido. Los usuarios comunes solo pueden esperar a que el producto actualice las plantillas o los flujos de trabajo, y las actualizaciones de flujos de trabajo requieren mucha mano de obra.
La elección de Medeo fue construir un Gensystem, un lenguaje diseñado específicamente para agentes de vídeo, que consta de tres partes principales: En primer lugar está Medeo DSL: un "lenguaje de producción de video" diseñado específicamente para describir contenido de video y métodos de producción, que puede traducir los vagos comandos de lenguaje natural de los usuarios en operaciones de edición de video que el modelo puede entender. Luego está el Sistema de Contexto: un sistema de contexto creado a partir de información como conjuntos de herramientas y métodos de producción de video, que permite hacer coincidir el contexto de producción de video más profesional con las instrucciones y necesidades del usuario en cada conversación. Por último, está Environment: se trata de una interfaz de edición de vídeo que permite a los usuarios trabajar y controlar el proceso de edición junto con la IA; esto es lo que denominamos anteriormente edición híbrida.
Como mencioné hace unos días, tengo dos principios para escribir las descripciones emergentes de Medeo: Sea lo más conciso posible, minimice la cantidad de requisitos específicos y hágalo lo más general posible para que las palabras clave puedan admitir más capacidades y más escenarios. Sin embargo, lo que me impulsó a implementar estos dos enfoques en realidad impuso exigencias bastante altas al modelo en sí y a todo el sistema del Agente. Este sistema debe ser capaz de complementar el propio contexto y al mismo tiempo poseer un cierto grado de inteligencia, ya sea en diseño de imágenes, edición de vídeos o construcción de vídeos. Por lo tanto, el hecho de que un sistema pueda soportar estos dos estilos y principios de escritura puede, hasta cierto punto, determinar las capacidades de gestión del contexto, las capacidades de adquisición de contexto y el nivel de inteligencia del sistema.
Estoy muy contento de tener un producto de este tipo en el campo de los certificados de dominio de vídeo, que me permite crear esas palabras clave y utilizar una sola palabra clave para completar la construcción de una cantidad suficiente de dominios o capacidades. Gracias a todos, eso es todo por hoy.








