X (Twitter)

大規模なモデルは最終的に 5 分間のビデオを一度に生成できるようになりますか? 復旦大学や南京大学など複数の大学の研究者が、新しいマルチモーダル制御可能な超長尺ビデオ世界モデル「LongVie 2」を発表しました。このモデルの最も重要な特徴は、最長5分間のビデオを生成できることです。このモデルは、大幅に改良されたWan 2.1をベースにしており、マルチモーダルガイダンス、入力フレームの劣化を考慮した学習、履歴コンテキストガイダンスを含む3段階のパイプラインを実装することで、3～5分間の一貫性のある動画出力を実現します。その核心は、単純なフレーム予測ではなく、因果関係の一貫性を優先することです。

karminski-牙医（@karminski3）のスレッド

作者情報

スレッド内容