5 分間のビデオを不具合なくネイティブに出力できるのはなぜですか? このロボットは、ビデオ継続タスクと呼ばれる事前学習手法を採用しています。学習中、LongCat-Videoは断片的な短いクリップではなく、大量のテレビシリーズを視聴します。その脳は、シーンがどのように見えるかではなく、次に何が起こるかを自然に考えます。 モデルがテレビシリーズを視聴する際、フレームごとにではなく、セグメントごとに、そしてイベントごとに視聴します。モデルは、行動の「導入、展開、クライマックス、そして結末」を理解します。これはブロック因果的注意と呼ばれるメカニズムです。これにより、長い一連の行動が簡単に途切れることはありません。 LongCat-Videoは、長い動画を生成する際に、背景の建物など、以前に計算された変化しない要素もキャッシュするため、フレームごとに再計算する必要がありません。これにより、動画の長さを5分まで延長できます。 (6/6)
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。