X (Twitter)

商品を販売している様子を一人称視点で観察することもできます。キャラクターの口の形、まばたき、そして手の動きに注目してください。現時点では音は出ていませんが、1分間の映像では口の形がループすることはありません。また、手で香水瓶を振ると、中の液体もそれに応じてわずかに揺れます。（5/6）

5 分間のビデオを不具合なくネイティブに出力できるのはなぜですか? このロボットは、ビデオ継続タスクと呼ばれる事前学習手法を採用しています。学習中、LongCat-Videoは断片的な短いクリップではなく、大量のテレビシリーズを視聴します。その脳は、シーンがどのように見えるかではなく、次に何が起こるかを自然に考えます。モデルがテレビシリーズを視聴する際、フレームごとにではなく、セグメントごとに、そしてイベントごとに視聴します。モデルは、行動の「導入、展開、クライマックス、そして結末」を理解します。これはブロック因果的注意と呼ばれるメカニズムです。これにより、長い一連の行動が簡単に途切れることはありません。 LongCat-Videoは、長い動画を生成する際に、背景の建物など、以前に計算された変化しない要素もキャッシュするため、フレームごとに再計算する必要がありません。これにより、動画の長さを5分まで延長できます。（6/6）

卡尔的AI沃茨（@aiwarts）のスレッド

作者情報

スレッド内容