大規模なモデルは最終的に 5 分間のビデオを一度に生成できるようになりますか? 復旦大学や南京大学など複数の大学の研究者が、新しいマルチモーダル制御可能な超長尺ビデオ世界モデル「LongVie 2」を発表しました。このモデルの最も重要な特徴は、最長5分間のビデオを生成できることです。 このモデルは、大幅に改良されたWan 2.1をベースにしており、マルチモーダルガイダンス、入力フレームの劣化を考慮した学習、履歴コンテキストガイダンスを含む3段階のパイプラインを実装することで、3~5分間の一貫性のある動画出力を実現します。その核心は、単純なフレーム予測ではなく、因果関係の一貫性を優先することです。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。