Zangshifu による Seedance 1.5 Pro ビデオ モデルの最初のテスト! 今回、音声と映像の同時再生に対応し、さらに驚くべきことに方言生成にも対応しました。同時に、演技における感情表現や複雑なカメラワークも大幅に向上しました。 Volcano Engine、Doubao、JiMengをぜひお試しください。まずは、Master Zangのテスト動画マッシュアップをご覧ください。 以下に具体的なテストの質問とプロンプトを示します👇
工事🚧を待つのが面倒な場合は、ここでmp.weixin.qq.com/s/LDYnJi5VvUuM…/t.co/L6UdEtrxlC
まず、陝西省の方言を見つけました。それほど方言的ではないかもしれません。中国語を話す人なら理解できるかもしれませんが、独特な発音の単語もいくつかあります。 教材は標準的な中国語に非常に近く、マークしにくい単語も多いため、一般的にかなり難しいです。一生懸命努力しなければ、うまくできません。 同時に、私が毎日見ている陝西省の麺料理を食べるライブ配信シーン、文生動画を選び、全体の映像と音声がどれだけうまく融合しているかを確認しました。食べることは会話にも影響を与えるため、モデルのシーン判断力を試す機会にもなります。 結果は実に驚くべきものでした。比較的難しい2つの単語、「聊咋咧」と「美滴很」は正しく発音され、イントネーションもまさに陝西省の方言そのものだったのです。 驚いたことに、彼らは指示に非常によく従い、まず一文を言い、次に飲み物を飲み、そして次の文を言うことを知っていました。 飲みながら話している間、ボトルを口の中に完全に入れませんでした。その瞬間は話せないと分かっていたからです。話している間にボトルを外し、もう一口飲んでから話すことを覚えていて、とてもリアルでした。
次に四川方言が登場しました。非常に難しいシナリオを選び、年齢、性別、外見が異なる3人のキャラクターをプロンプトに追加し、それぞれ異なる言語を話させました。 正直に言うと、ヒントは少し難しすぎましたが、Seedance 1.5 Proは本当に驚きました。ヒントに従って、カードを引くたびにタスクを完了することができました。 全員がそれぞれの役柄に合った適切なトーンとピッチで話し、声のトーンを間違えることもありませんでした。四川語特有の「巴适得板」(ba shi de ban)というフレーズも、とても上手に発音していました。 カメラの移動方法は特に指定していませんでしたが、クレーンのように回転しながら話している人にカメラが自動的に向けられ、手ブレも少しありました。また、麻雀卓に映っていない人物にもカメラが向けられていたため、その人物が手持ちで撮影しているように見えました。 背景がぼやけているため、他の参加者も運動したり、思い思いのことをしたりしており、会話も非常に現実的な感じで、この 12 秒間の動画は非常にリアルなものになっています。
最後に広東語です。こちらも文生動画を使用し、日常生活を強く意識したレストランのシーンを取り上げました。 映像生成時のカメラワークは見事でした。ウェイターの背中から顔へと滑らかに切り替わり、男性が話している間もカメラは自然に顔へとパンしていました。 キューワードも非常によく守られており、各キューワードとすべてのアクション ラインのタイミングの細部まで注意が払われています。 広東語はあまり理解できないのですが、セリフはすごくリアルに聞こえました。広東語独特の発音もちゃんとできました。「広東語警察」からのフィードバックも歓迎します。
現在、AIが生成した様々なヒット映画やテレビ番組では、実際の人間の映像に加え、ペットのAI動画もトラフィックの大きな割合を占めています。そのため、ペットの鳴き声と唇の動きの同期を検証する必要があります。
まずは猫の「ムクバン」です。「ムクバン」は効果音と表情に高い基準が求められます。動画に映る食べ物は、動画と同じ質感でなければなりません。ここでは、猫が焼き餃子を食べる音が、とても食欲をそそります。 さらに、猫は噛んでいるときに人間のような恍惚の表情を完璧に捉えており、不気味の谷問題に悩まされていないのは非常に印象的です。
猫に人間の言葉を話させるには、口の形だけでなく、解剖学的構造の検証も必要です。多くの動画では、動物が人間の言葉を話す際に、舌や歯が人間の歯のようになることが示されています。Seedance 1.5 Proはこの点で優れた機能を発揮します。 モデルは子供のような音声を出力し、「…」は発話のリズムと眠気を表すために使用しました。モデル生成時には、対応するリズムに合わせて発話速度を遅くしました。
音声と映像を組み合わせる能力について触れましたが、モデルの演技力と感情表現も非常に重要です。感情や演技力は音声と密接に関連していることが多く、映像だけでは期待する効果を表現できません。
この一節は、主に恐怖、抑圧、そして懇願といった複雑な感情が織り交ぜられた表現となっています。特に目は表情豊かで、恐怖と不安の感情を効果的に伝えています。 最初の文は、まだ決心がついていないかのように、とても低い声で話されていました。しかし、2番目の文になると、既に言ったことで自信がついたようで、声が大きくなっていました。 2番目の文と同時に場面が変わり、彼の視線は明らかに決意を強めます。 息を荒くした時の首の動きや口元の唾液の表現も非常に良く、より臨場感を高めています。
2D 様式化されたアート スタイルでリップシンクと顔の表情をテストします。 驚くべきことに、2Dの横顔でもモデルのリップシンクや表情、感情の変化が非常によく表現されており、3Dになっても崩れる傾向はなく、非常に安定しています。 最後のすすり泣く音は話し声ととてもよく合っており、ロボットと遭遇した際に金属がぶつかる音など、細部へのこだわりが素晴らしい。
これまでの例からもお分かりいただけるように、更新されたモデルは複雑なカメラの動きを制御する際に大幅に性能が向上しました。では、さらに難しい例を見てみましょう。
まず、よく知られている高度なカメラ移動技術、ヒッチコックズームがあります。 ここでやったことは、信じられないほど突飛なことでした。12秒間連続して、ヒッチコック流の超高速ズームを実現するのは、現実では非常に難しいことですが、実際に実現できるとは思ってもいませんでした。 キャラクターの表情も微妙に変化し、効果音もズームのスピードや主人公の呼吸のリズムに合わせて変化し、キャラクターの緊迫した感情を効果的に伝えます。
これはロングショットのテストであり、各エリアの規制は非常に詳細です。 ご覧のとおり、各セクションのプロンプトに必要なコンテンツが提示されており、人物が隠される前と後の両方で一貫性が保たれています。 カメラワークは非常に安定しており、難しいターンや、キャラクターが立ち止まって汗を拭うシーンなど、指示を忠実に守っていました。特に、最後の顔へのズームアップは滑らかでした。
Volcano Engineは本日、豆宝動画生成モデル「Seedance 1.5 pro」を正式リリースしました。個人ユーザーは本日よりJimeng AI、豆宝アプリ、Volcano Ark体験センターで体験いただけます。企業ユーザーは12月23日よりVolcano EngineでモデルAPIをご利用いただけます。
