X (Twitter)

Medeo 1.0 終於上線了，這是我認為第一個真正意義上的視訊Agent 試了一下相當驚艷，具體的特色有： - 支援非常靈活的透過自然語言進行修改 - 支援超過上千字的超長提示詞 - 提供非常好的泛化性，各種風格和垂類都可以做。寫了基礎教程，並探索了三套非常好的提示詞👇 前三十個評論轉發發邀請碼

懶得等施工🚧的話可以在這裡看長文： mp.weixin.qq.com/s/ltoRVzX-6MHk…z2 這裡試試Medeomedeo.app/create?v=2W

學一下基礎操作 1️⃣第一個部分是他們的一些模板，這裡不是只有畫面風格，他包含了畫面、台詞、剪輯方式以及音樂等一系列優質視頻的必要要求，你可以選擇一個你喜歡的直接應用。 2️⃣第二個部分很好理解了，你可以選擇生成橫版或豎版視頻，這裡目前只支援16:9 以及9:16 兩個常見比例。 3️⃣第三個部分，裡面支援超多的自訂設置，如果你對細節要求較高可以選擇，比如視頻時長、具體生成的類型只生成圖片或者是視頻、畫面風格、配音的聲音。 4️⃣最後一個部分是素材上傳，支援直接從URL 裡面拉取其中的文字和圖片作為素材，也可以自己上傳對應的文字和圖片。

基本上，你在輸入框直接描述你的影片產生需求，就可以開始創作。而且這裡你也不需要過於詳細地描述需求，因為Medeo 是支援後續透過自然語言對生成的影片進行修改的。例如，這裡前面有兩段素材重複了，你就可以告訴它這兩段素材的位置，然後讓它重新生成，並且替換。它可以很完美地執行這些操作。當然，更簡單的是讓他自己找出重複的素材然後替換也行。

Medeo 幾乎支援市面上常見的所有圖像和視訊模型由於非常強的泛化性，你可以透過提示詞指定他具體使用哪些模型生成圖片或者視頻，再或者直接用Sora 這種模型直接生成完整視頻。他甚至非常聰明地自己在決定什麼時候該用文生圖，什麼時候該用圖生圖。

另外除了支援自然語言編輯，Medeo 依然支援在左側使用你熟悉的剪輯頁面編輯，這個也是獨一份的體驗。你可以拖曳每個分鏡的邊界線去控制分鏡的時長，也可以直接在Audio script 部分編輯對應文案，還能具體定義每個音訊的音量和時間。

微縮模型風格的科普視頻靈感主要來自我前幾天做的Nano Banana Pro 提示詞。我寫了一提示詞，裡面詳細描述了關於畫面風格、口播台詞和資產一致性等要求。然後它出來的結果，畫面風格上是非常漂亮的，動畫也非常好。但講述上有些謎語人。於是我就讓他自己反思了一下，自己思考說這種科普內容的劇本該怎麼寫。在他自己反思和給出第一步的改進方案之後，我又跟他討論了一些不足的點，完善了講解的結構，最後讓他執行，結果已經相當完美了。

我也根據我們跟他的討論，優化了一下最終的提示詞：計畫指令：小說世界觀微縮導覽or 基於微縮模型的科普短片主題：[基地-銀河帝國世界觀介紹] or [SpaceX 獵鷹重型雙助推器同步回收科普] 計畫目標：以「桌上沙盤」的上帝視角，配合詼諧毒舌的解說，製作一部小說世界觀或真實事件的科普短片。一、視覺法則，用Gemini 生圖場景移軸微縮模型化：場景定義：找出一個最具代表性的名場面或核心地點。在畫面中央，將這個場景建構成一個精緻的軸側視角3D微縮模型。風格要採用夢工廠動畫那種細膩、柔和的渲染風格。你需要還原當時的建築細節、人物動態以及環境氛圍，無論是暴風雨或寧靜的午後，都要自然融合在模型的光影裡。微距模擬：模擬人類用微距鏡頭觀察沙盤。大量使用淺景深(Shallow Depth of Field) 和移軸效果，背景必須虛化。運鏡方式：依靠攝影機的平滑橫移(Pan)、推拉(Dolly) 和焦點切換(Rack Focus) 來引導視線，而非物體運動。二、音頻與解說(Audio & Persona) 關於背景，不要使用簡單的純白底。請在模型周圍營造出帶有淡淡水墨暈染和流動光霧的虛空環境，色調雅緻，讓畫面看起來有呼吸感和縱深感，襯托出中央模型的珍貴。二、解說人設：視角：抽離的「造物主」或「高維度觀察者」。基調：語速輕快，充滿冷幽默(Dry Humor) 與毒舌感。用輕鬆隨興的語氣解構殘酷或宏大的設定，打破第四面牆吐槽世界的荒謬性。三、配樂：類似《模擬城市》或《文明》的輕快背景樂，帶有探索感，與畫面內容的沉重形成反差。四、劇本結構模板：如果是世界觀介紹執行：世界觀科普視頻的腳本寫作核心在於訊息的系統性和清晰度,而非氛圍營造。首先必須整理世界觀的骨架結構,包括關鍵地點(哪些星球、城市、區域)、核心人物(他們的身份和作用)、時間線(重大事件的先後順序)、以及支撐世界運轉的核心概念或法則。腳本不能追求文學性或懸念感,而要用平實的紀錄片語言,把"是什麼"說清楚,把"為什麼"講明白,把"怎麼發展"理順楚。每個資訊點都要具體化,避免抽象描述,。時長要充足,不能為了追求短視頻節奏而壓縮關鍵信息,寧可做到90-120秒把世界觀講透,也不要做30秒讓人雲裡霧裡。最重要的是,寫作前必須問自己:一個完全不了解這個世界的觀眾,看完後能否搞清楚這個世界由什麼組成、如何運作、發生了什麼故事,如果答案是否定的,那就是失敗的科普腳本。如果是真實科普執行：科普類短影片的腳本寫作核心在於建立完整的認知閉環，而非單純展示結果。首先必須建立清晰的敘事結構框架，通常採用"鉤子-問題-解決-意義"四段式：開場用震撼畫面或極端類比快速抓住注意力，讓觀眾產生"這是什麼"的好奇心；隨後必須交代背景和問題，說明"為什麼需要關注這件事"，通過對比傳統方法的段落或局限性，讓觀眾理解技術革新的必要性；接下來是新的必要性；接下來是科普；，這是最容易被忽視但最重要的部分，必須詳細拆解"他們是如何做到的"，將複雜技術分解為3-5個可理解的步驟，每個步驟用簡潔的語言說明原理，配合具體的數據量化和生動的類比，讓抽象概念變得可感知；最後是意義昇華，不能輕飄飄地結束，而要回扣主題，說明回扣的實際意義。在語言表達上，要善用對比製造衝擊力，例如"傳統方法vs 新技術"的before-after對比，用具體數字而非抽象形容詞來量化難度和成果，同時運用生動的類比將專業術語轉化為日常經驗，

生活化電商產品宣傳影片前幾天自己設計了一個專門用來Vibe Coding 的鍵盤。所以想試試Medeo 做電商產品的宣傳影片效果如何。這個地方主要考驗的是還原度。於是我就搞了一個提示詞，將任何產品變成這種類似香水的販賣生活方式的一個宣傳片。最後產生的結果商品的還原真的非常完美。就是連商品上的圖示、按鍵顏色，包括開孔位置都還原了。

Medeo 生活風格商品宣傳廣告影片提示詞：你的角色(Role) 你是一位推崇「感官美學」的視覺藝術總監。你的專長是將任何實體產品（無論它多麼工業化或科技化）解構為一種藝術體驗和生活方式。你的風格參考對象包括：Atelier Cologne（歐瓏）、Aesop（伊索）、Loewe（羅意威）以及Kinfolk 雜誌。分鏡圖片中的產品必須與我上傳的產品圖一致，使用Gemini 生成分鏡圖片，Sora 產生影片。核心任務(Core Task) 接收用戶上傳的產品圖片或描述，運用「分形藝術（Fractal Art）」與「生活流（Slice of Life）」結合的手法，產生一支30-60 秒的概念影片腳本與視覺生成提示詞。嚴禁事項：禁止使用「賽博龐克」、「高科技」、「霓虹燈」、「全息投影」等科技圈陳腔濫調。禁止像說明書一樣羅列功能參數。禁止畫面生硬、僵硬。抽象處理邏輯(Abstraction Logic) 你必須按照以下三個步驟處理輸入的產品：第一步：視覺解構(Visual Deconstruction) 擷取產品的核心幾何特徵（圓形、方形、倒角、紋理）。提取產品的材質情緒（金屬的冷冽、木頭的溫潤、玻璃的通透、織物的親膚）。產生指令：基於這些幾何與材質，產生一組分形（Fractal）或萬花筒式的抽象動態背景。讓產品在抽象的幾何流動中若隱若現，形成一種視覺上的「韻律」。第二步：感官通感(Synesthesia) 將產品的「功能」轉化為「感覺」。尋找一個美好的生活方式，將其與產品畫面進行蒙太奇剪輯。第三步：人文場景(Human Context) 置景必須是極俱生活氣息且高級的（由自然光主導）。人物狀態必須是鬆弛的、享受的，處於一種「心流（Flow）」狀態，而不是在「工作」或「操作機器」。輸出模板(Output Template) 請依照使用者輸入的產品，嚴格依照以下結構輸出方案： A. 視覺基調定義(Visual Key) 光影設定：（例如：晨曦、午後漫反射、燭光、丁達爾效應）核心材質與色彩：（提取產品色與環境色的互補關係）抽像元素：（描述由產品形態演變而成的分形圖案，如「由鍵帽方塊組成的無限延伸的幾何迷宮」） B. 視訊分鏡串流(Storyboard Flow) (請內含5-6 個鏡頭，必須交替使用「微距特寫」、「抽象分形轉場」和「生活遠景」) 鏡頭1 [引入]：環境空鏡或抽象幾何的極慢速流動（由產品特徵產生）。鏡頭2 [觸感]：極致微距。聚焦材質紋理。鏡頭3 [互動]：人物極為優雅、緩慢的使用瞬間（結合自然光）。鏡頭4 [通感]：也就是你提到的分形/生成藝術畫面。用畫面表現「思考/聲音/氣味」的形狀。鏡頭5 [共存]：產品靜置在生活場景中，與書本、植物或茶杯共存。 C. 聽覺設計(Audio Design) 音樂風格：必須是聲學樂器（鋼琴、大提琴、豎琴）或極簡氛圍音（Ambient）。環境音(Foley)：極為細膩的ASMR 聲音（風聲、書頁翻動聲、呼吸聲）。 D. 獨白文案(The Monologue) (生成一段像散文詩的旁白，不要提及任何技術名詞，只談時間、空間、靈感與陪伴) 產品介紹文案為，可參考：

他們為什麼可以做好從官號跟他們日常聊天了解了一下，他們為了實現品質和靈活度都兼顧的Agent 架構做了哪些事情。傳統的視訊生產產品，其實一直以來都面臨著如何解決和平衡使用門檻、生產成本和效果控制這個不可能三角的難題。

有些產品可以產出非常複雜且高品質的內容，但是同時帶來非常高的使用門檻和學習操作成本；一些我們說的套殼產品，快速接入了各種模型和工具，但是他們各自為戰，用戶需要自己選擇對應的模型並且在傳統工具中進行複雜的剪輯工具；最後是一些本質上是工作流程的Agent 產品，門檻變低了，但是內容製作的廣度和多樣性被犧牲了，普通用戶只能等待產品更新模板或工作流程，而且工作流程的更新非常消耗人力。

Medeo 的選擇是：建構一套專為影片Agent 創作的語言Gensystem，主要由三個部分構成：首先是Medeo DSL：一套專門用來對影片內容和製作方法進行表述的「影片製作語言」可以將使用者模糊的自然語言指令轉換為模型可以理解的影片編輯操作。然後是Context System：由工具集、影片製作方式等資訊建構的上下文系統，每次對話都可以從使用者的指令和需求中匹配更多的影片製作專業上下文。最後是Environment：這是一個可以支援使用者與AI 共同行動、控制編輯的影片剪輯介面，我們前面說的混合編輯就是這個東西。

我前幾天說過，我寫Medeo提示詞有兩個原則：盡可能的簡潔，少寫一些具體的需求盡可能的通用，讓提示詞能支援更多的能力和更多的場景但是，這兩個能促使我去實現這兩種寫法的，其實對於模型本身和整個Agent的系統有足夠高的要求。這個系統必須能夠自己補充上下文，同時自己有一定的智能，無論是在影像設計上的智能，還是在影片剪輯以及影片建構上的智能。所以一個系統是否能支援這兩種寫法和原則，可以一定程度上判斷這個系統的上下文管理能力、上下文獲取能力以及智慧程度。

很高興在視訊域證的領域有了一個這樣的產品，能夠讓我去搭建這樣的提示詞，能夠讓我去用一個提示詞來完成足夠多領域，或者足夠多能力的構建。謝謝大家，今天的內容就到這裡。

来自歸藏(guizang.ai)（@op7418）的推文线程

作者信息

线程正文