Medeo 1.0 がついにオンラインになりました。これは本当に意味のある最初のビデオ エージェントだと信じています。 実際に使ってみて、本当に驚きました。具体的な機能は以下のとおりです。 - 自然言語による非常に柔軟な変更をサポート - 1,000 文字を超える非常に長いプロンプトをサポートします。 - 優れた一般化機能を備えており、さまざまなスタイルや業種で使用できます。 基本的なチュートリアルを書き、3つの優れたキーワード提案セットを調べました👇 最初の 30 件のコメントと再投稿には招待コードが提供されます。
工事🚧を待つのが面倒な場合は、ここでmp.weixin.qq.com/s/ltoRVzX-6MHk…://t.co/tLQ6amedeo.app/create?v=2さい: https://t.co/dC0n9gQF5W
基本的な操作を学ぶ 1️⃣ 最初の部分はテンプレートです。これはビジュアルスタイルだけではありません。ビジュアル、セリフ、編集スタイル、音楽など、高品質な動画に不可欠な一連の要件が含まれています。お好きなテンプレートを選んで、すぐに適用できます。 2️⃣ 2つ目の部分は分かりやすいです。横向きまたは縦向きの動画を生成できます。現在、一般的な2つのアスペクト比、16:9と9:16のみがサポートされています。 3️⃣ 3つ目のパートでは、多くのカスタム設定が可能です。細かい設定が必要な場合は、動画の長さ、出力形式(画像のみまたは動画のみ)、画像スタイル、ナレーションなどを選択できます。 4️⃣ 最後は素材のアップロードです。URLからテキストや画像を直接素材として取得することも、対応するテキストや画像を自分でアップロードすることもできます。
基本的には、入力ボックスにビデオ生成のニーズを記述するだけで作成を開始できます。 さらに、Medeo は自然言語を使用して生成されたビデオへの後続の変更をサポートしているため、ここで要件をあまり詳細に説明する必要はありません。 例えば、重複するクリップが2つある場合、その2つのクリップの位置を指定して、それらを再生成して置き換えます。これらの操作は完璧に実行できます。 もちろん、さらに簡単な方法は、重複した資料を自分で見つけて置き換えてもらうことです。
Medeo は、市場で一般的なほぼすべての画像およびビデオ モデルをサポートしています。 非常に強力な一般化能力により、プロンプトを使用して画像やビデオを生成するために使用するモデルを指定したり、Sora などのモデルを直接使用して完全なビデオを生成したりできます。 彼は、テキストベースの画像をいつ使用し、イメージベースの画像をいつ使用するかを自分で巧みに決めます。
Medeo は、自然言語編集のサポートに加えて、使い慣れたクリップボードを使用した左側での編集もサポートしており、ユニークなエクスペリエンスを提供します。 各シーンの境界線をドラッグしてシーンの長さを制御したり、オーディオ スクリプト セクションで対応するテキストを直接編集したり、各オーディオ セグメントの音量と長さを定義したりすることもできます。
ミニチュア模型風の科学ビデオ インスピレーションは主に、数日前に作成した Nano Banana Pro のプロンプトから得られました。 私は、ビジュアル スタイル、ナレーション、アセットの一貫性に関する要件を詳しく説明したプロンプトを作成しました。 完成品は視覚的に素晴らしく、アニメーションも素晴らしかった。しかし、ストーリー展開は少々難解だった。 そこで私は彼自身に振り返ってもらい、この種の科学普及コンテンツの脚本をどのように書くべきかを考えてもらったのです。 彼が自身の仕事を振り返り、最初の改善案を出した後、私は彼と問題点を話し合い、説明の構成を改善し、最終的にそれを実行してもらいました。結果はまさに完璧でした。
彼との話し合いに基づいて、私は最終的なプロンプトの単語も最適化しました。 プロジェクト指示:小説の世界観に関するミニチュアガイド、またはミニチュア模型に基づいた短い教育ビデオ。テーマ:[ファウンデーション-銀河帝国の世界観の紹介] または [SpaceXファルコン・ヘビー・デュアルブースターの同期回収に関する教育ビデオ] プロジェクトの目的: デスクトップ サンドボックスの視点とユーモアとウィットに富んだ解説を使用して、小説や実際の出来事の世界観に基づいた短い教育映画を制作します。 I. ビジュアル原則:Gemini を使用して、RAW 画像からシーンのティルトシフト ミニチュアモデルを作成します。シーン定義:代表的な有名シーンまたは主要な場所を特定します。フレーム中央に、軸測図法でそのシーンの詳細な 3D ミニチュアモデルを構築します。スタイルは、ドリームワークス アニメーションの繊細で柔らかなレンダリングスタイルを採用する必要があります。嵐の日でも穏やかな午後でも、当時の建築のディテール、キャラクターの動き、周囲の雰囲気を再現し、モデルの光と影に自然に溶け込むようにします。マクロシミュレーション:マクロレンズで砂場を観察する人間をシミュレートします。浅い被写界深度とティルトシフト効果を多用し、背景はぼかす必要があります。カメラの動き:オブジェクトの動きに焦点を当てるのではなく、スムーズなパン、ドリーズーム、ラックフォーカスを使用して視線を誘導します。II. オーディオとペルソナ:背景については、単純な純白の背景は避けてください。モデルの周囲に、淡い水墨画効果と流れるようなライトミストで、空間の空間を作り出してください。色調は、写真に息づく感覚と奥行きを与え、中心となるモデルの貴重さを際立たせるために、優雅なものにする必要があります。 II. 語り手の性格:視点:客観的な「創造者」または「高次元の観察者」。口調:軽妙でテンポが速く、辛口なユーモアと辛辣な言葉遣いに満ちている。リラックスしたカジュアルな口調で、残酷な設定や壮大な設定を解体し、第四の壁を破って世界の不条理を風刺する。 3. 音楽: BGMはSimCityやCivilizationに似た軽快で楽しいもので、探索感があり、重厚なビジュアル内容とは対照的です。 IV. スクリプト構造テンプレート: 世界観の導入と実行:世界観をテーマとした科学普及動画の脚本作成の核心は、雰囲気作りではなく、体系的かつ明確な情報提供にあります。まず、世界観の骨格を明確にする必要があります。主要な場所(どの惑星、都市、地域か)、主要人物(それぞれの正体と役割)、タイムライン(主要な出来事の時系列)、そして世界の仕組みを支える中核概念や法則などが含まれます。脚本は文学的な雰囲気やサスペンスを追求するのではなく、平易なドキュメンタリー言語を用いて「何を」「なぜ」「どのように」行うのかを明確に説明する必要があります。それぞれの情報ポイントは具体的で、抽象的な説明は避けるべきです。十分な長さが重要です。短い動画のペースに合わせて重要な情報を詰め込むべきではありません。視聴者を30秒で混乱させるよりも、90~120秒で世界観を徹底的に説明する方が効果的です。最も重要なのは、脚本を書く前に自問自答することです。この世界を全く知らない視聴者は、この世界が何で構成され、どのように機能し、そして視聴後にどのような物語が展開されるかを理解できるでしょうか?もし答えが「ノー」なら、それは科学普及のための脚本としては失敗作です。 真の科学普及のために:科学普及のための短編動画の脚本作成の核心は、単に結果を提示するのではなく、完全な認知ループを構築することにあります。まず、明確な物語構造を確立する必要があります。通常は、「フック-問題-解決策-意義」の4部構成を採用します。冒頭では、印象的なビジュアルや極端なアナロジーを用いて、視聴者の注意を素早く引きつけ、好奇心を掻き立てます。次に、背景と問題点を説明し、「なぜこれに注目すべきなのか」を明確にし、従来の方法の問題点や限界を対比させることで、技術革新の必要性を視聴者に理解させます。次のセクションは、最も見落とされがちですが、非常に重要な、科学普及の核となる部分です。ここでは、「どのように」実現したかを詳細に説明し、複雑な技術を3~5つのわかりやすいステップに分解し、各ステップの原理を簡潔な言葉で説明し、具体的なデータと鮮明なアナロジーを用いて抽象的な概念を具体化する必要があります。最後に、意義を強調します。動画は表面的な終わり方ではなく、テーマに戻り、その技術の実際的な効果や、より大きなインスピレーションを与える価値を説明する必要があります。言語表現においては、「従来の手法 vs. 新しい技術」のビフォーアフター比較など、コントラストを効果的に活用してインパクトを与えることが重要です。また、難易度や結果を定量化する際に抽象的な形容詞ではなく具体的な数値を用い、専門用語を日常的な経験に置き換えるために鮮明なアナロジーを用いるなど、工夫を凝らすことが重要です。
ライフスタイルEコマース製品のプロモーションビデオ 数日前、Vibe Coding専用のキーボードを設計しました。そこで、Medioがeコマース製品のプロモーションビデオでこのキーボードをどれだけ効果的に活用できるかをテストしたかったのです。 ここでは主に再現の正確さをテストします。 そこで私は、あらゆる製品をこの香水のようなライフスタイルのプロモーション ビデオに変えるためのプロンプトを作成しました。 最終的な製品の再現はまさに完璧でした。 製品のアイコンやボタンの色、開口部の位置まで再現されています。
Medeo ライフスタイル製品プロモーションビデオのテーマ: あなたの役割 あなたは「感覚美学」を提唱するビジュアルアートディレクターです。あらゆる物理的な製品(どれほど工業化され、技術的であるかに関わらず)を、芸術的な体験とライフスタイルへと分解することを専門としています。スタイルに関しては、アトリエ・コロン、イソップ、ロエベ、そしてキンフォーク・マガジンなどを参考にしています。 ストーリーボード画像内の商品は、私がアップロードした商品画像と一致している必要があります。ストーリーボード画像の生成にはGeminiを使用し、動画の生成にはSoraを使用しました。 コアタスク ユーザーがアップロードした製品の画像や説明を受け取り、「フラクタル アート」と「スライス オブ ライフ」の手法を組み合わせて、30 ~ 60 秒のコンセプト ビデオ スクリプトとビジュアル キュー ワードを生成します。 禁止されているもの: 「サイバーパンク」、「ハイテク」、「ネオンライト」、「ホログラフィックプロジェクション」などの技術的な決まり文句の使用は禁止されています。 ユーザーマニュアルのように機能パラメータをリストすることは禁止されています。 画像は堅苦しくまたは硬直したものであってはなりません。 抽象化ロジックはデータの処理に使用されます。 入力製品は、次の 3 つの手順で処理する必要があります。 ステップ1:視覚的な分解 製品のコアとなる幾何学的特徴 (円、正方形、面取り、テクスチャ) を抽出します。 製品の素材が持つ感情的な特性(金属の冷たさ、木の温かみ、ガラスの透明感、布地の肌触りの良さ)を抽出します。 指示の生成:これらの形状とマテリアルに基づいて、フラクタルまたは万華鏡のような抽象的な動的背景のセットを生成します。これにより、製品が抽象的な幾何学的流れの中で現れたり消えたりすることで、視覚的な「リズム」が生まれます。 ステップ2:共感覚 製品の「機能」を「体感」に変える。 素晴らしいライフスタイルを見つけて、それを製品のビジュアルに組み込むモンタージュ編集を作成します。 ステップ3:人間の文脈 セットデザインは、住みやすく洗練されている必要があります(自然光が優先されます)。 キャラクターは、「働いている」または「機械を操作している」のではなく、「フロー」の状態でリラックスして楽しんでいる必要があります。 出力テンプレート ユーザーが入力した製品に基づいて、以下の構造に厳密に従ってソリューションを出力してください。 A. ビジュアルキーの定義 照明と影の設定: (例: 夜明け、午後の拡散反射、ろうそくの光、チンダル効果) コアとなる素材と色彩:(製品の色彩と周囲の色の補完関係を抽出) 抽象要素: (「キーキャップの正方形で構成された無限に広がる幾何学的迷路」など、製品形態から発展するフラクタル パターンについて説明します) B. ビデオストーリーボードフロー (「マクロのクローズアップ」「抽象的なフラクタルトランジション」「ライフスタイルのロングショット」を交互に5~6枚のショットを含めてください) ショット 1 [導入]: 空の環境または抽象的なジオメトリ (製品機能から生成) の非常にゆっくりとしたフロー。 レンズ2 [タッチ]:究極のマクロ。素材の質感にフォーカスします。 ショット 3 [インタラクション]: キャラクターを非常にエレガントかつゆっくりと使用した瞬間 (自然光との組み合わせ)。 レンズ4 [共感覚]:これは先ほどおっしゃったフラクタル/ジェネレーティブ・アートのことですね。画像を用いて「思考/音/匂い」の形を表現しています。 レンズ5【共存】:製品は生活環境に置かれ、本、植物、ティーカップなどと共存します。 C. オーディオデザイン 音楽スタイル: アコースティック楽器 (ピアノ、チェロ、ハープ) またはミニマルなアンビエント サウンドである必要があります。 フォーリー: 非常に詳細な ASMR サウンド (風、ページをめくる音、呼吸)。 D. モノローグテキスト (専門用語を一切使わず、時間、空間、インスピレーション、仲間関係についてのみ語る、散文詩のようなナレーションを作成します。) 製品の説明テキストは次のとおりですので、参照してください。
なぜ彼らはうまくやれるのでしょうか? 彼らの公式アカウントや日々の会話から、品質と柔軟性のバランスが取れたエージェント アーキテクチャを実現するために彼らが行ったことを学びました。 従来のビデオ制作製品は常に、アクセシビリティ、制作コスト、エフェクト制御という不可能な三角形を解決し、バランスをとるという課題に直面してきました。
一部の製品は非常に複雑で高品質のコンテンツを作成できますが、同時に、参入障壁が非常に高く、学習コストも高くなります。 これまでに紹介した「シェル製品」と呼ばれる製品の中には、さまざまなモデルやツールを迅速に統合できるものもありますが、それらは独立して動作するため、ユーザーは対応するモデルを選択し、従来のツール内で複雑な編集を行う必要があります。 最後に、本質的にワークフローであるエージェント製品がいくつかあります。参入障壁は下がったものの、コンテンツ作成の幅広さと多様性は犠牲になっています。一般ユーザーは、テンプレートやワークフローのアップデートを待つしかなく、ワークフローの更新には多大な労力がかかります。
Medeo の選択は、ビデオ エージェント専用に設計された言語である Gensystem を構築することでした。これは、次の 3 つの主要部分から構成されます。 1 つ目は Medeo DSL です。これは、ビデオ コンテンツと制作方法を記述するために特別に設計された「ビデオ制作言語」で、ユーザーの漠然とした自然言語コマンドをモデルが理解できるビデオ編集操作に変換できます。 さらに、コンテキスト システムがあります。これは、ツールセットやビデオ制作方法などの情報から構築されるコンテキスト システムで、各会話におけるユーザーの指示やニーズから、よりプロフェッショナルなビデオ制作コンテキストを一致させることができます。 最後に、環境があります。これは、ユーザーが AI と並行して編集プロセスを操作および制御できるようにするビデオ編集インターフェイスです。これは、以前にハイブリッド編集と呼んだものです。
数日前にお話ししたように、Medeo ツールチップの記述には 2 つの原則があります。 プロンプト語がより多くの機能とシナリオをサポートできるように、できるだけ簡潔にして、具体的な要件の数を最小限に抑え、できるだけ一般的なものにします。 しかし、私がこれら 2 つのアプローチを実装するきっかけとなったのは、実際にはモデル自体とエージェント システム全体にかなり高い要求を課すことでした。 このシステムは、コンテキスト自体を補完でき、同時に、画像デザイン、ビデオ編集、ビデオ構築のいずれにおいても、ある程度のインテリジェンスを備えている必要があります。 したがって、システムがこれら 2 つのライティング スタイルと原則をサポートできるかどうかによって、システムのコンテキスト管理機能、コンテキスト取得機能、およびインテリジェンスのレベルがある程度決まります。
ビデオ ドメイン証明書の分野でこのような製品が登場し、プロンプト ワードを作成し、1 つのプロンプト ワードを使用して十分な数のドメインまたは機能の構築を完了できることを非常に嬉しく思います。 みなさんありがとうございました。今日はこれで終わりです。





![彼との話し合いに基づいて、私は最終的なプロンプトの単語も最適化しました。
プロジェクト指示:小説の世界観に関するミニチュアガイド、またはミニチュア模型に基づいた短い教育ビデオ。テーマ:[ファウンデーション-銀河帝国の世界観の紹介] または](https://pbs.twimg.com/media/G8SSPo5a8AA8zwY.jpg)


