Veo3 と Sora2 のリリースにより、AI ビデオ モデルの開発動向は、オーディオとビデオの融合という非常に明確になりました。 今日、国内の開発者がようやく追いつき、Volcano Engine が Seedance 1.5 pro を正式にリリースしました。 業界をリードするオーディオとビデオの共同生成ソリューションを採用しています。 オーディオとビジュアルの同期、方言の解釈、カメラの動きの制御、物語の表現において驚くべき可能性を示しています。 これは私がクロストークと方言に関して実施した一連のテストです。
人間の声に加え、環境音効果音(SFX)と映像の同期率も重要であり、これまで複雑だったAIオーディオワークフローを簡素化します。これは、ゲームシーンや映画の特殊効果シーンなど、高周波音が必要となるシナリオにおいて特に重要です。 このモデルは、映像や音声だけでなく、専門的な写真撮影用語も理解するため、カメラの動きがよりプロフェッショナルで継続的になります。 キャラクターの演技もより繊細でリアルになっています。 これらはいくつかのテスト例であり、カードを引く実際の成功率は 50% です。
Seedance 1.5 Pro とその前身との根本的な技術的な違いは、サウンドをビデオのアクセサリとして扱わなくなったことです。 音声と動画のジョイントシナリオ向けのMMDitとRLHFトレーニングのネイティブアーキテクチャを通じて、特に中国語方言と専門的な撮影制御において、「画質は良いが、表現力、音、映画的な雰囲気が欠けている」という従来のAI動画の問題点を解決し、差別化された競争優位性を形成します。 建築設計の特徴: 1. MMDIT(マルチモーダル拡散トランスフォーマー)アーキテクチャをベースとし、デュアルブランチ設計を採用し、クロスモーダルジョイントモジュールを統合しています。これにより、生成プロセスにおける視覚ストリームと聴覚ストリームの深い相互作用が可能になり、極めて高い時間同期と意味的一貫性が確保されます。 2. 音声フィードバック付きRLHF。SFTを基盤として、音声・映像コンテキストに特化した強化学習(RLHF)アルゴリズムが開発されました。このアルゴリズムは、多次元報酬モデルを用いて、映像品質、美的パフォーマンス、音声忠実度を評価します。 3. 推論パイプライン。推論チェーンは、ユーザープロンプトワード -> プロンプトワードエンジニアリング -> テキストエンコーダー -> ジョイント生成モデル(DiT) -> ビデオ/オーディオリファイナー -> 出力で構成されます。 4. 評価基準:評価基準が強化され、画質に加え、「映像の鮮明さ」(アクションとショットの2つのサブディビジョンに分割)という新たなディビジョンと、4つのオーディオディビジョン(コマンドコンプライアンス、音質、オーディオとビジュアルの同期、オーディオの表現力)が追加されました。 完全な技術レポートはこちらでご覧いただけます: https://t.co/sc5YoGlMJt
Seedance 1.5 Proは、AIによる動画生成において「無声映画の時代」から「音声映画の時代」へと大きく前進したと言えるでしょう。音声と映像の同期、方言解釈、カメラワークの制御、そして物語表現において、驚異的なポテンシャルを発揮しています。東北方言や上海語といった特定の方言への対応や、複雑なシーンにおける安定性(成功率約50%)など、まだ改善の余地はありますが、短編ドラマ、広告デモ、さらには映画のストーリーボード制作において、クリエイターを支援できるレベルに達しています。 アクセスポイント: Seedance 1.5 Pro が正式にリリースされ、以下の場所でプレイできるようになりました。 Jimeng AI: Web ブラウザで、「ビデオ生成」 -> モデル選択: Video 3.5 Pro を選択します。 Doubao アプリ: ダイアログボックスに「写真を動かす」と入力 -> 写真をアップロード -> 1.5 Pro モデル (ベータ版) を選択します。 開発者API:来週、Seedance 1.5 ProモデルAPIがVolcano Engineで利用可能になります。Volcano Arkエクスペリエンスセンターでモデルエフェクトを体験し、モデルサービスの予約も行えます。 https://t.co/iogZcW2wZ5