O Medeo 1.0 está finalmente online, e acredito que este seja o primeiro agente de vídeo verdadeiramente relevante. Experimentei e fiquei bastante impressionado. As características específicas incluem: - Suporta modificações altamente flexíveis por meio de linguagem natural. - Suporta mensagens extremamente longas, com mais de 1.000 caracteres. - Oferece excelentes capacidades de generalização e pode ser usado em diversos estilos e setores. Escrevi um tutorial básico e explorei três conjuntos realmente bons de sugestões de palavras-chave 👇 Os primeiros 30 comentários e compartilhamentos receberão um código de convite.
Se você estiver commp.weixin.qq.com/s/ltoRVzX-6MHk…la construçãomedeo.app/create?v=2completo aqui: https://t.co/tLQ6ae2zz2 Experimente o Medeo aqui: https://t.co/dC0n9gQF5W
Aprenda algumas operações básicas 1️⃣ A primeira parte são alguns dos modelos disponíveis. Não se trata apenas do estilo visual; inclui uma série de requisitos essenciais para vídeos de alta qualidade, como elementos visuais, diálogos, estilo de edição e música. Você pode escolher um que lhe agrade e aplicá-lo diretamente. 2️⃣ A segunda parte é fácil de entender. Você pode optar por gerar um vídeo na horizontal ou na vertical. Atualmente, apenas as duas proporções de tela mais comuns, 16:9 e 9:16, são suportadas. 3️⃣ A terceira parte oferece suporte a diversas configurações personalizadas. Se você tiver requisitos exigentes em relação aos detalhes, poderá escolher opções como duração do vídeo, tipo específico de saída (somente imagens ou vídeos), estilo da imagem e narração. 4️⃣ A última parte é o carregamento de materiais. É possível importar textos e imagens diretamente da URL como materiais, ou você pode carregar os textos e imagens correspondentes manualmente.
Basicamente, você pode começar a criar simplesmente descrevendo suas necessidades de geração de vídeo na caixa de entrada. Além disso, não é necessário descrever suas necessidades com muitos detalhes aqui, pois o Medeo permite modificações subsequentes no vídeo gerado usando linguagem natural. Por exemplo, se houver dois clipes repetidos, você pode informar as posições desses dois clipes e, em seguida, deixar que o programa os regenere e substitua. Ele pode executar essas operações perfeitamente. Claro, uma abordagem ainda mais simples é deixá-lo encontrar o material duplicado por conta própria e substituí-lo.
O Medeo é compatível com quase todos os modelos de imagem e vídeo comuns no mercado. Devido à sua grande capacidade de generalização, você pode especificar quais modelos ele usa para gerar imagens ou vídeos por meio de instruções, ou usar diretamente um modelo como o Sora para gerar um vídeo completo. Ele até decide, de forma inteligente, quando usar imagens baseadas em texto e quando usar imagens baseadas em imagens.
Além de oferecer suporte à edição em linguagem natural, o Medeo também permite a edição no lado esquerdo usando a sua área de transferência familiar, o que proporciona uma experiência única. Você pode arrastar as linhas de limite de cada cena para controlar sua duração, editar o texto correspondente diretamente na seção de roteiro de áudio e até mesmo definir o volume e a duração de cada segmento de áudio.
Vídeos científicos em estilo de modelos em miniatura A inspiração veio principalmente dos prompts do Nano Banana Pro que eu criei alguns dias atrás. Elaborei um enunciado que detalha os requisitos relativos ao estilo visual, à narração e à consistência dos elementos gráficos. O produto final era visualmente deslumbrante, com animação excelente. No entanto, a narrativa era um tanto confusa. Então, pedi a ele que refletisse sobre isso e pensasse em como escrever o roteiro para esse tipo de conteúdo de divulgação científica. Após ele refletir sobre seu próprio trabalho e elaborar seu primeiro plano de melhoria, discuti algumas deficiências com ele, aprimorei a estrutura da explicação e, finalmente, o incentivei a implementá-la. O resultado foi praticamente perfeito.
Com base na nossa conversa com ele, também otimizei as palavras-chave finais: Instruções do projeto: Guia em miniatura para a visão de mundo do romance ou vídeo educativo curto baseado em um modelo em miniatura. Temas: [Introdução à visão de mundo da Fundação-Império Galáctico] ou [Vídeo educativo sobre a recuperação síncrona dos propulsores duplos do Falcon Heavy da SpaceX] Objetivo do projeto: Criar um curta-metragem educativo baseado na visão de mundo de um romance ou de um evento real, utilizando uma perspectiva de "ambiente de mesa" e comentários humorísticos e espirituosos. I. Princípios Visuais: Usando o Gemini para criar um modelo em miniatura tilt-shift de uma cena a partir de uma imagem bruta: Definição da Cena: Identifique uma cena famosa ou um local central representativo. Construa um modelo em miniatura 3D detalhado dessa cena a partir de uma perspectiva axonométrica no centro do quadro. O estilo deve adotar a renderização delicada e suave da animação da DreamWorks. Você precisa recriar os detalhes arquitetônicos, os movimentos dos personagens e a atmosfera ambiental da época, seja um dia tempestuoso ou uma tarde tranquila, garantindo que se integrem naturalmente à iluminação e às sombras do modelo. Simulação Macro: Simule humanos observando uma mesa de areia com uma lente macro. Utilize profundidade de campo rasa e efeitos tilt-shift extensivamente; o fundo deve estar desfocado. Movimento da Câmera: Guie o olhar usando panorâmica suave, zoom dolly e foco seletivo, em vez de focar no movimento do objeto. II. Áudio e Personagem: Em relação ao fundo, evite usar um fundo branco puro e simples. Crie um ambiente vazio ao redor do modelo com um leve efeito de lavagem de tinta e névoa leve e fluida. A tonalidade da cor deve ser elegante para dar à imagem uma sensação de leveza e profundidade, realçando a preciosidade da modelo central. II. Personagem do Narrador: Perspectiva: Um "criador" distante ou um "observador multidimensional". Tom: Leve e dinâmico, repleto de humor seco e língua afiada. Utiliza um tom descontraído e informal para desconstruir cenários cruéis ou grandiosos, quebrando a quarta parede para satirizar o absurdo do mundo. 3. Música: A música de fundo é leve e alegre, semelhante à de SimCity ou Civilization, o que transmite uma sensação de exploração e contrasta com o conteúdo denso dos visuais. IV. Modelo de Estrutura de Roteiro: Para introduções e execução de cosmovisões: o cerne da escrita de roteiros para vídeos de divulgação científica sobre cosmovisões reside na informação sistemática e clara, e não na criação de atmosfera. Primeiramente, a estrutura básica da cosmovisão deve ser delineada, incluindo locais-chave (quais planetas, cidades, regiões), figuras-chave (suas identidades e papéis), uma linha do tempo (a ordem cronológica dos principais eventos) e os conceitos ou leis fundamentais que sustentam o funcionamento do mundo. O roteiro não deve buscar um estilo literário ou suspense, mas sim utilizar uma linguagem documental simples para explicar claramente "o quê", "por quê" e "como". Cada ponto de informação deve ser específico, evitando descrições abstratas. A duração adequada é crucial; informações essenciais não devem ser condensadas para se adequarem a um ritmo de vídeo curto. É melhor explicar a cosmovisão de forma completa em 90 a 120 segundos do que deixar os espectadores confusos em 30 segundos. Mais importante ainda, antes de escrever, você deve se perguntar: um espectador completamente alheio a esse mundo conseguirá entender do que ele é composto, como funciona e quais histórias se desenrolam após assistir ao vídeo? Se a resposta for não, então é um roteiro de divulgação científica fracassado. Para uma verdadeira popularização da ciência: a essência da criação de roteiros para vídeos curtos de divulgação científica reside na construção de um ciclo cognitivo completo, em vez de simplesmente apresentar resultados. Primeiro, é preciso estabelecer uma estrutura narrativa clara, geralmente empregando uma estrutura de quatro partes: "gancho-problema-solução-significado". A abertura utiliza recursos visuais impactantes ou analogias extremas para captar rapidamente a atenção e despertar a curiosidade do público. Em seguida, o contexto e o problema devem ser explicados, esclarecendo "por que precisamos prestar atenção a isso", contrastando os pontos problemáticos ou as limitações dos métodos tradicionais para ajudar o público a compreender a necessidade da inovação tecnológica. A próxima seção é o segmento central da popularização da ciência, a parte mais facilmente negligenciada, porém crucial. Ela deve detalhar "como eles fizeram isso", dissecando tecnologias complexas em 3 a 5 etapas compreensíveis, explicando os princípios de cada etapa em linguagem concisa, utilizando dados concretos e analogias vívidas para tornar conceitos abstratos tangíveis. Finalmente, o significado deve ser enfatizado; o vídeo não deve terminar superficialmente, mas sim retornar ao tema, explicando o impacto prático ou o maior valor inspirador da tecnologia. Em termos de expressão linguística, é importante fazer bom uso do contraste para gerar impacto, como uma comparação de antes e depois entre "métodos tradicionais versus novas tecnologias", usando números concretos em vez de adjetivos abstratos para quantificar a dificuldade e os resultados, e empregando analogias vívidas para transformar termos técnicos em experiências cotidianas.
Vídeo promocional para produtos de e-commerce de estilo de vida. Há alguns dias, projetei um teclado especificamente para o Vibe Coding. Então, quis testar o desempenho dele com o Medio em vídeos promocionais de produtos de e-commerce. Este local testa principalmente a precisão da reprodução. Então, criei um desafio para transformar qualquer produto em um vídeo promocional para esse estilo de vida que lembra um perfume. A reprodução do produto final ficou verdadeiramente perfeita. Até mesmo os ícones, as cores dos botões e as posições de abertura do produto foram replicados.
Sugestões para vídeo promocional de produtos de estilo de vida da Medeo: Seu papel Você é um diretor de arte visual que defende a "estética sensorial". Sua especialidade reside em desconstruir qualquer produto físico (por mais industrializado ou tecnológico que seja) em uma experiência artística e um estilo de vida. Suas referências estilísticas incluem Atelier Cologne, Aesop, Loewe e a revista Kinfolk. Os produtos nas imagens do storyboard devem corresponder às imagens dos produtos que eu enviei. Usei o Gemini para gerar as imagens do storyboard e o Sora para gerar o vídeo. Tarefa principal Receba imagens ou descrições de produtos enviadas pelos usuários e utilize uma combinação de técnicas de "Arte Fractal" e "Cotidiano" para gerar um roteiro de vídeo conceitual de 30 a 60 segundos e palavras-chave visuais. Itens proibidos: É proibido o uso de clichês tecnológicos como "cyberpunk", "alta tecnologia", "luzes de néon" e "projeção holográfica". É proibido listar parâmetros funcionais como em um manual do usuário. As imagens não devem ser rígidas ou inflexíveis. A lógica de abstração é usada para processar dados. Você deve processar os produtos de entrada nas três etapas a seguir: Etapa 1: Desconstrução Visual Extraia as principais características geométricas do produto (círculo, quadrado, chanfro, textura). Extraia as qualidades emocionais dos materiais do produto (a frieza do metal, o calor da madeira, a transparência do vidro e a suavidade do tecido em contato com a pele). Gerar instruções: Com base nessas geometrias e materiais, gere um conjunto de fundos abstratos dinâmicos, semelhantes a fractais ou caleidoscópios. Isso permite que o produto apareça e desapareça dentro do fluxo geométrico abstrato, criando um "ritmo" visual. Etapa Dois: Sinestesia Transformar a "função" do produto em "sensação". Encontre um estilo de vida inspirador e crie uma montagem que o incorpore às imagens do produto. Etapa 3: Contexto Humano O projeto do cenário deve ser ao mesmo tempo habitável e sofisticado (com predominância de luz natural). O personagem deve estar relaxado e se divertindo, em estado de "fluxo", em vez de "trabalhando" ou "operando uma máquina". Modelo de saída Por favor, apresente a solução seguindo rigorosamente a seguinte estrutura, com base no produto inserido pelo usuário: A. Definição de chave visual Configurações de iluminação e sombra: (ex.: amanhecer, reflexo difuso da tarde, luz de velas, efeito Tyndall) Materiais e cores principais: (Extraindo a relação complementar entre as cores do produto e as cores do ambiente) Elementos abstratos: (Descreva padrões fractais que evoluem a partir de formas de produtos, como "um labirinto geométrico infinitamente extenso composto por quadrados de teclas") B. Fluxo do Storyboard em Vídeo (Inclua de 5 a 6 fotos, alternando entre "macro close-up", "transição fractal abstrata" e "plano geral do estilo de vida") Cena 1 [Introdução]: Um fluxo extremamente lento de um ambiente vazio ou geometria abstrata (gerada a partir de características do produto). Lente 2 [Touch]: Macro definitiva. Foca na textura do material. Cena 3 [Interação]: Um momento de uso extremamente elegante e lento da personagem (combinado com luz natural). Lente 4 [Sinestesia]: Refere-se à arte fractal/generativa que você mencionou. Ela usa imagens para representar as formas do "pensamento/som/cheiro". Lente 5 [Coexistência]: O produto é colocado em um ambiente residencial, coexistindo com livros, plantas ou xícaras de chá. C. Design de áudio Estilo musical: Deve ser composto por instrumentos acústicos (piano, violoncelo, harpa) ou sons ambientes minimalistas. Foley: Sons ASMR extremamente detalhados (vento, virar de página, respiração). D. Texto do Monólogo (Crie uma narrativa que se assemelhe a um poema em prosa, sem mencionar termos técnicos, abordando apenas tempo, espaço, inspiração e companheirismo.) A descrição do produto é a seguinte, você pode consultá-la:
Por que eles conseguem se sair bem? Aprendi com a conta oficial deles e com as conversas diárias o que fizeram para alcançar uma arquitetura de Agentes que equilibra qualidade e flexibilidade. Os produtos tradicionais de produção de vídeo sempre enfrentaram o desafio de resolver e equilibrar o triângulo aparentemente impossível de acessibilidade, custos de produção e controle de efeitos.
Alguns produtos conseguem gerar conteúdo muito complexo e de alta qualidade, mas, ao mesmo tempo, apresentam uma barreira de entrada muito alta e um custo de aprendizagem elevado. Alguns dos produtos que mencionamos, chamados de "produtos de interface", integram rapidamente vários modelos e ferramentas, mas operam de forma independente, exigindo que os usuários selecionem os modelos correspondentes e realizem edições complexas em ferramentas tradicionais. Por fim, existem alguns produtos para agentes que são essencialmente fluxos de trabalho. A barreira de entrada foi reduzida, mas a amplitude e a diversidade da criação de conteúdo foram sacrificadas. Os usuários comuns só podem esperar que o produto atualize os modelos ou fluxos de trabalho, e as atualizações de fluxos de trabalho exigem muita mão de obra.
A escolha da Medeo foi construir um Gensystem, uma linguagem especificamente projetada para agentes de vídeo, composta por três partes principais: Em primeiro lugar está o Medeo DSL: uma "linguagem de produção de vídeo" especificamente projetada para descrever conteúdo de vídeo e métodos de produção, capaz de traduzir comandos vagos em linguagem natural dos usuários em operações de edição de vídeo que o modelo consegue entender. Existe também o Sistema de Contexto: um sistema de contexto construído a partir de informações como conjuntos de ferramentas e métodos de produção de vídeo, que permite adequar o contexto de produção de vídeo a um nível mais profissional, de acordo com as instruções e necessidades do usuário em cada conversa. Por fim, temos o Ambiente: trata-se de uma interface de edição de vídeo que permite aos usuários trabalhar e controlar o processo de edição juntamente com a IA; é a isso que nos referimos anteriormente como edição híbrida.
Como mencionei há alguns dias, tenho dois princípios para escrever dicas de ferramentas no Medeo: Mantenha-o o mais conciso possível, minimize o número de requisitos específicos e torne-o o mais geral possível para que as palavras-chave possam abranger mais funcionalidades e mais cenários. No entanto, o que me motivou a implementar essas duas abordagens foi, na verdade, impor exigências bastante elevadas ao próprio modelo e a todo o sistema de agentes. Este sistema deve ser capaz de complementar o próprio contexto e, ao mesmo tempo, possuir um certo grau de inteligência, seja no design de imagem, na edição de vídeo ou na construção de vídeo. Portanto, a capacidade de um sistema suportar esses dois estilos e princípios de escrita pode, em certa medida, determinar suas capacidades de gerenciamento de contexto, aquisição de contexto e nível de inteligência.
Estou muito satisfeito por ter um produto como este na área de certificados de domínio de vídeo, que me permite criar palavras-chave e usar uma única palavra-chave para concluir a construção de um número suficiente de domínios ou funcionalidades. Obrigado a todos, por hoje é só.








