X (Twitter)

Medeo 1.0이 드디어 출시되었으며, 저는 이것이 진정으로 의미 있는 최초의 비디오 에이전트라고 생각합니다. 직접 사용해봤는데 정말 놀라웠습니다. 구체적인 특징은 다음과 같습니다. - 자연어를 통한 매우 유연한 수정 기능을 지원합니다. - 1,000자 이상의 매우 긴 프롬프트를 지원합니다. - 뛰어난 일반화 능력을 제공하며 다양한 스타일과 분야에서 사용할 수 있습니다. 기본 튜토리얼을 작성하고 정말 유용한 키워드 추천 세트 세 가지를 살펴보았습니다 👇 선착순 30명의 댓글 작성자와 리트윗 참여자에게 초대 코드를 드립니다.

공사가 진행되는 동안 기다리기 귀찮mp.weixin.qq.com/s/ltoRVzX-6MHk…요: https://medeo.app/create?v=2를 여기서 사용해 보세요: https://t.co/dC0n9gQF5W

몇 가지 기본 연산을 배워보세요. 1️⃣ 첫 번째 부분은 몇 가지 템플릿을 소개합니다. 이는 단순히 시각적인 스타일뿐만 아니라, 고품질 영상 제작에 필수적인 요소들(영상, 대화, 편집 스타일, 음악 등)을 포함하고 있습니다. 마음에 드는 템플릿을 선택하여 바로 적용할 수 있습니다. 2️⃣ 두 번째 부분은 이해하기 쉽습니다. 가로 또는 세로 방향의 영상을 생성할 수 있습니다. 현재는 16:9와 9:16의 두 가지 일반적인 화면비만 지원됩니다. 3️⃣ 세 번째 부분에서는 다양한 사용자 지정 설정을 지원합니다. 세부적인 사항까지 신경 쓰고 싶다면 영상 길이, 출력 유형(이미지 또는 영상만), 사진 스타일, 음성 해설 등을 선택할 수 있습니다. 4️⃣ 마지막 단계는 자료 업로드입니다. URL에서 텍스트와 이미지를 자료로 직접 가져오거나, 해당 텍스트와 이미지를 직접 업로드할 수 있습니다.

기본적으로 입력란에 영상 제작에 필요한 사항을 설명하기만 하면 제작을 시작할 수 있습니다. 또한, Medeo는 자연어를 사용하여 생성된 비디오를 추후 수정할 수 있도록 지원하기 때문에 요구 사항을 너무 자세하게 설명할 필요가 없습니다. 예를 들어, 중복되는 클립이 두 개 있는 경우, 해당 클립들의 위치를 알려준 다음, 프로그램이 클립들을 재생성하여 교체하도록 할 수 있습니다. 프로그램은 이러한 작업들을 완벽하게 수행할 수 있습니다. 물론, 훨씬 더 간단한 방법은 그가 직접 중복된 자료를 찾아 교체하도록 하는 것입니다.

Medeo는 시중에 나와 있는 거의 모든 일반적인 이미지 및 비디오 형식을 지원합니다. 뛰어난 일반화 능력을 갖추고 있어 프롬프트를 통해 이미지나 비디오 생성에 사용할 모델을 지정하거나, Sora와 같은 모델을 직접 사용하여 완전한 비디오를 생성할 수 있습니다. 그는 텍스트 기반 이미지와 이미지 기반 이미지를 언제 사용할지까지 영리하게 스스로 결정한다.

Medeo는 자연어 편집을 지원하는 것 외에도 익숙한 클립보드를 사용하여 왼쪽에서 편집할 수 있는 기능을 제공하여 독특한 경험을 선사합니다. 각 장면의 경계선을 드래그하여 지속 시간을 조절하고, 오디오 스크립트 섹션에서 해당 텍스트를 직접 편집하고, 각 오디오 세그먼트의 볼륨과 지속 시간까지 정의할 수 있습니다.

미니어처 모형 스타일의 과학 영상 주된 영감은 며칠 전에 만들었던 Nano Banana Pro 프롬프트에서 얻었습니다. 저는 시각적 스타일, 내레이션 대화, 에셋 일관성에 관한 요구 사항을 자세히 설명하는 프롬프트를 작성했습니다. 최종 결과물은 훌륭한 애니메이션으로 시각적으로는 매우 뛰어났습니다. 하지만 스토리텔링은 다소 난해했습니다. 그래서 저는 그에게 직접 생각해 보고 이런 종류의 대중 과학 콘텐츠 대본을 어떻게 써야 할지 고민해 보라고 부탁했습니다. 그가 자신의 작업을 되돌아보고 첫 번째 개선 계획을 세운 후, 저는 그와 몇 가지 부족한 점에 대해 논의하고 설명 구조를 개선한 다음, 최종적으로 그에게 실행을 맡겼습니다. 결과는 아주 완벽했습니다.

그와의 논의를 바탕으로 최종 프롬프트 단어를 최적화했습니다. 프로젝트 지침: 소설의 세계관을 소개하는 미니어처 가이드 또는 미니어처 모델을 기반으로 한 짧은 교육 영상. 주제: [파운데이션-은하 제국 세계관 소개] 또는 [스페이스X 팰컨 헤비 이중 부스터 동시 회수 관련 교육 영상] 프로젝트 목표: 소설이나 실제 사건을 바탕으로 세계관을 담은 단편 교육 영상을 제작하되, "데스크톱 샌드박스" 방식을 활용하고 유머러스하고 재치 있는 해설을 곁들이는 것. I. 시각적 원칙: Gemini를 사용하여 원본 이미지에서 장면의 틸트 시프트 미니어처 모델 제작하기: 장면 정의: 대표적인 유명 장면 또는 핵심 장소를 선정합니다. 프레임 중앙에 이 장면의 상세한 3D 미니어처 모델을 축측 투시법으로 제작합니다. 드림웍스 애니메이션 특유의 섬세하고 부드러운 렌더링 스타일을 적용해야 합니다. 폭풍우 치는 날이든 평화로운 오후든, 당시의 건축적 디테일, 인물의 움직임, 환경적 분위기를 재현하여 모델의 조명과 그림자에 자연스럽게 어우러지도록 합니다. 매크로 시뮬레이션: 매크로 렌즈로 모래 테이블을 관찰하는 사람을 시뮬레이션합니다. 얕은 심도와 틸트 시프트 효과를 적극적으로 활용하여 배경을 흐리게 처리합니다. 카메라 움직임: 피사체의 움직임에 초점을 맞추기보다는 부드러운 패닝, 돌리 줌, 랙 포커스를 사용하여 시선을 유도합니다. II. 오디오 및 분위기: 배경은 단순한 순백색 배경을 피하고, 모델 주변에 먹물 효과와 흐르는 안개를 사용하여 여백이 있는 환경을 연출합니다. 색감은 우아해야 하며, 그림에 생동감과 깊이감을 부여하고 중심 모델의 귀중함을 강조해야 합니다. II. 서술자의 특징: 관점: 객관적인 "창조자" 또는 "고차원적 관찰자". 어조: 가볍고 빠른 템포에 건조한 유머와 날카로운 풍자가 가득하다. 편안하고 자연스러운 어조로 잔혹하거나 웅장한 상황을 해체하고, 제4의 벽을 허물어 세상의 부조리를 풍자한다. 3. 음악: 배경 음악은 심시티나 시빌라이제이션처럼 가볍고 활기찬 분위기로, 탐험 정신을 자극하며 무거운 영상 콘텐츠와 대조를 이룹니다. IV. 스크립트 구조 템플릿: 세계관 소개 및 실행에 있어, 대중 과학 영상 제작의 핵심은 분위기 조성보다는 체계적이고 명확한 정보 전달에 있습니다. 먼저, 세계관의 기본 구조를 개략적으로 설명해야 합니다. 여기에는 주요 장소(행성, 도시, 지역 등), 주요 인물(정체성과 역할), 연대표(주요 사건의 시간 순서), 그리고 세계관을 지탱하는 핵심 개념이나 법칙이 포함됩니다. 대본은 문학적 기교나 긴장감을 추구하기보다는, "무엇", "왜", "어떻게"를 명확하게 설명하는 간결한 다큐멘터리식 언어를 사용해야 합니다. 각 정보는 구체적이어야 하며, 추상적인 설명은 피해야 합니다. 충분한 분량 또한 중요합니다. 짧은 영상 길이를 위해 핵심 정보를 압축해서는 안 됩니다. 30초 만에 시청자를 혼란스럽게 만드는 것보다 90~120초 동안 세계관을 충분히 설명하는 것이 훨씬 효과적입니다. 무엇보다 중요한 것은, 대본을 쓰기 전에 스스로에게 다음과 같은 질문을 던져야 한다는 것입니다. 이 세계관에 대해 전혀 모르는 시청자가 영상을 보고 세계관의 구성 요소, 작동 방식, 그리고 전개되는 이야기를 이해할 수 있을까? 답이 '아니오'라면, 그것은 실패한 대중 과학 시나리오입니다. 진정한 과학 대중화를 위해서는 과학 대중화 단편 영상의 시나리오 작성 핵심은 단순히 결과를 제시하는 것이 아니라 완전한 인지적 순환 구조를 구축하는 데 있습니다. 먼저, "흥미 유발-문제-해결책-중요성"의 4단계 구조를 활용하여 명확한 내러티브 구조를 확립해야 합니다. 도입부에서는 눈길을 사로잡는 시각 자료나 극단적인 비유를 사용하여 시청자의 관심을 빠르게 끌고 호기심을 자극합니다. 다음으로, 배경과 문제점을 설명하여 "왜 이 문제에 주목해야 하는가"를 명확히 하고, 기존 방식의 문제점이나 한계를 비교하여 기술 혁신의 필요성을 이해시켜야 합니다. 그다음은 가장 간과하기 쉽지만 매우 중요한 핵심 과학 대중화 부분입니다. 이 부분에서는 "어떻게 했는지"를 자세히 설명하고, 복잡한 기술을 3~5단계로 나누어 이해하기 쉽게 풀어내며, 각 단계의 원리를 간결한 언어로 설명하고, 구체적인 데이터와 생생한 비유를 사용하여 추상적인 개념을 쉽게 이해할 수 있도록 해야 합니다. 마지막으로, 그 중요성을 강조해야 합니다. 영상은 피상적으로 끝나서는 안 되며, 기술의 실질적인 영향이나 더 큰 영감을 주는 가치를 설명하면서 주제로 다시 돌아가야 합니다. 언어 표현 측면에서는 "전통적인 방식과 새로운 기술"의 전후 비교처럼 대조를 잘 활용하여 강렬한 인상을 주는 것이 중요하며, 난이도와 결과를 수치화할 때는 추상적인 형용사보다는 구체적인 수치를 사용하고, 기술 용어를 일상 경험으로 풀어내는 생생한 비유를 활용해야 합니다.

라이프스타일 전자상거래 제품 홍보 영상 며칠 전, 저는 Vibe Coding 전용 키보드를 디자인했습니다. 그래서 Medio가 이 키보드를 전자상거래 제품 홍보 영상에 얼마나 잘 활용할 수 있을지 테스트해보고 싶었습니다. 이곳은 주로 복제의 정확성을 테스트하는 곳입니다. 그래서 저는 어떤 제품이든 향수와 같은 라이프스타일을 홍보하는 영상으로 만들 수 있는 아이디어를 생각해냈습니다. 최종 제품 재현은 정말 완벽했습니다. 제품의 아이콘, 버튼 색상, 개폐 위치까지 모두 그대로 복제되었습니다.

메데오 라이프스타일 제품 홍보 영상 제작 지침: 당신의 역할 당신은 "감각적 미학"을 중시하는 비주얼 아트 디렉터입니다. 당신의 전문 분야는 산업화되거나 기술적으로 생산된 모든 물리적 제품을 예술적인 경험과 라이프스타일로 재해석하는 데 있습니다. 당신의 스타일적 영감은 아틀리에 쾰른, 이솝, 로에베, 킨포크 매거진 등에 뿌리를 두고 있습니다. 스토리보드 이미지에 나오는 제품은 제가 업로드한 제품 이미지와 일치해야 합니다. 스토리보드 이미지는 Gemini로, 영상은 Sora로 제작했습니다. 핵심 과제 사용자가 업로드한 제품 이미지 또는 설명을 받아 "프랙탈 아트"와 "일상 속 풍경" 기법을 조합하여 30~60초 분량의 콘셉트 비디오 스크립트와 시각적 단서를 생성합니다. 금지 품목: "사이버펑크", "첨단 기술", "네온사인", "홀로그램 투영"과 같은 기술적 클리셰의 사용은 금지됩니다. 사용자 설명서처럼 기능 매개변수를 나열하는 것은 금지되어 있습니다. 이미지는 딱딱하거나 경직되어서는 안 됩니다. 추상화 논리는 데이터를 처리하는 데 사용됩니다. 투입 제품은 다음 세 단계에 따라 처리해야 합니다. 1단계: 시각적 분해 제품의 핵심 기하학적 특징(원, 사각형, 모서리 경사, 질감)을 추출합니다. 제품 소재의 감성적인 특성(금속의 차가움, 나무의 따뜻함, 유리의 투명성, 직물의 피부 친화성)을 추출하십시오. 생성 지침: 이러한 기하학적 형태와 재료를 기반으로, 프랙탈 또는 만화경과 같은 추상적인 동적 배경 세트를 생성합니다. 이를 통해 제품이 추상적인 기하학적 흐름 속에서 나타났다 사라지면서 시각적인 "리듬"을 만들어냅니다. 2단계: 공감각 제품의 "기능"을 "느낌"으로 바꿔보세요. 멋진 라이프스타일을 찾아보고, 그 라이프스타일을 제품 이미지에 녹여낸 몽타주 영상을 제작해 보세요. 3단계: 인간적 맥락 무대 디자인은 실용적이면서도 세련되어야 하며 (자연광이 주를 이루어야 함), 등장인물은 '일하는' 또는 '기계를 조작하는' 상태가 아니라, 편안하고 즐거운 '몰입' 상태에 있어야 합니다. 출력 템플릿 사용자가 입력한 제품을 바탕으로 다음 구조에 정확히 맞춰 결과를 출력해 주십시오. A. 시각적 핵심 정의 조명 및 그림자 설정: (예: 새벽, 오후의 은은한 반사, 촛불, 틴들 효과) 핵심 소재 및 색상: (제품 색상과 주변 색상 간의 상호 보완적인 관계 추출) 추상적 요소: (제품 형태에서 진화하는 프랙탈 패턴을 설명하세요. 예를 들어 "키캡 사각형으로 구성된 무한히 확장되는 기하학적 미로"와 같은 형태) B. 비디오 스토리보드 흐름도 (매크로 클로즈업, 추상적인 프랙탈 전환, 라이프스타일 롱샷을 번갈아가며 5~6장의 사진을 포함해 주세요.) 샷 1 [소개]: (제품 특징에서 생성된) 텅 빈 환경 또는 추상적인 기하학적 형태가 매우 느리게 흐르는 장면. 렌즈 2 [터치]: 궁극의 접사. 소재의 질감에 초점을 맞춥니다. 3번째 장면 [상호작용]: 인물을 매우 우아하고 느긋하게 활용하는 순간 (자연광과 어우러짐). 렌즈 4 [공감각]: 이는 말씀하신 프랙탈/생성형 예술을 의미합니다. "생각/소리/냄새"의 형태를 이미지로 표현하는 방식입니다. 렌즈 5 [공존]: 제품이 생활 환경에 놓여 책, 식물 또는 찻잔과 공존합니다. C. 오디오 디자인 음악 스타일: 어쿠스틱 악기(피아노, 첼로, 하프) 또는 미니멀리즘 앰비언트 사운드여야 합니다. 폴리: 매우 섬세한 ASMR 사운드(바람 소리, 책 넘기는 소리, 숨소리). D. 독백문 (전문 용어는 일절 사용하지 않고, 시간, 공간, 영감, 그리고 동반자 관계에 대해서만 이야기하며 산문시처럼 읽히는 서술을 만들어 보세요.) 제품 설명은 다음과 같습니다. 참고하시기 바랍니다.

그들은 왜 잘할 수 있는 걸까요? 저는 그들의 공식 계정과 일상적인 대화를 통해 품질과 유연성의 균형을 맞춘 에이전트 아키텍처를 구현하기 위해 어떤 노력을 기울였는지 알게 되었습니다. 기존 영상 제작 제품들은 접근성, 제작 비용, 효과 제어라는 불가능해 보이는 세 가지 요소를 균형 있게 충족시키는 데 항상 어려움을 겪어왔습니다.

일부 제품은 매우 복잡하고 고품질의 콘텐츠를 제작할 수 있지만, 동시에 진입 장벽이 매우 높고 학습 비용도 많이 듭니다. 앞서 언급한 "셸 제품"이라고 불리는 일부 제품은 다양한 모델과 도구를 신속하게 통합하지만, 독립적으로 작동하므로 사용자는 해당 모델을 선택하고 기존 도구 내에서 복잡한 편집 작업을 수행해야 합니다. 마지막으로, 일부 에이전트 제품은 본질적으로 워크플로우에 불과합니다. 진입 장벽은 낮아졌지만, 콘텐츠 제작의 폭과 다양성은 희생되었습니다. 일반 사용자는 제품이 템플릿이나 워크플로우를 업데이트할 때까지 기다려야 하며, 워크플로우 업데이트는 상당한 인력이 필요합니다.

Medeo는 비디오 에이전트를 위해 특별히 설계된 언어인 Gensystem을 구축하기로 결정했으며, 이는 크게 세 부분으로 구성됩니다. 첫 번째는 Medeo DSL입니다. 이는 비디오 콘텐츠와 제작 방법을 설명하기 위해 특별히 설계된 "비디오 제작 언어"로, 사용자의 모호한 자연어 명령을 모델이 이해할 수 있는 비디오 편집 작업으로 변환할 수 있습니다. 다음으로 컨텍스트 시스템이 있습니다. 이 시스템은 도구 세트 및 비디오 제작 방법과 같은 정보를 기반으로 구축되어 각 대화에서 사용자의 지침과 요구 사항에 맞춰 보다 전문적인 비디오 제작 환경을 제공할 수 있도록 합니다. 마지막으로 환경이 있습니다. 이는 사용자가 AI와 함께 편집 과정을 작업하고 제어할 수 있도록 하는 비디오 편집 인터페이스입니다. 앞서 언급한 하이브리드 편집이 바로 이것입니다.

며칠 전에 언급했듯이, 저는 Medeo 툴팁을 작성할 때 두 가지 원칙을 가지고 있습니다. 가능한 한 간결하게 작성하고, 구체적인 요구 사항의 수를 최소화하며, 가능한 한 일반적인 표현을 사용하여 프롬프트 단어가 더 많은 기능과 시나리오를 지원할 수 있도록 하십시오. 하지만 제가 이 두 가지 접근 방식을 구현하게 된 계기는 실제로 모델 자체와 전체 에이전트 시스템에 상당히 높은 요구 조건을 부과하는 것이었습니다. 이 시스템은 맥락 자체를 보완할 수 있어야 하며, 동시에 이미지 디자인, 비디오 편집 또는 비디오 제작 등에서 일정 수준의 지능을 갖추어야 합니다. 따라서 시스템이 이러한 두 가지 글쓰기 스타일과 원칙을 지원할 수 있는지 여부는 시스템의 컨텍스트 관리 기능, 컨텍스트 획득 기능 및 지능 수준을 어느 정도 결정짓는 요소가 될 수 있습니다.

비디오 도메인 인증서 분야에서 이러한 제품을 갖게 되어 매우 기쁩니다. 이 제품을 사용하면 프롬프트 단어를 구성하고 단일 프롬프트 단어를 사용하여 충분한 수의 도메인 또는 기능을 구축할 수 있습니다. 여러분 모두 감사합니다. 오늘은 여기까지입니다.

歸藏(guizang.ai)(@op7418)의 스레드

작성자 정보

스레드 내용