美団初のAI動画モデル「LongCat-Video」を136億のパラメータでテストしました。このモデルはテキストと画像から動画を生成し、動画の連続再生や720p/30fpsの超長尺動画の制作が可能です。さらに、私の接続を利用して、美団LongCatチームから社内テストへのアクセスも得ました。 例えば、この動画では、何秒目から LongCat-Video を使用してストーリーを続けているのかわかりますか? 👇 (1/6)
答えは、2 秒後にはすべてがコンテンツとして生成されるということです。 LongCat-Video は一人称視点のタイムトラベル ビデオの作成に優れており、現実世界に近い非常に自然で一貫性のあるプロセスで、5 分間のタイムトラベル ビデオを一度に生成することもできます。 (2/6)
技術チームは、LongCat-Videoをワールドモデルと定義しています。多様なスタイルやシーンを持つ動画を生成することを目的とする一般的な動画モデルとは異なり、このワールドモデルは現実世界のダイナミクス、物理法則、そして因果関係を理解することを目指しています。 NVIDIA は GTC でこのコンセプトを繰り返し強調し、同社が紹介したアプリケーション事例には、スマートカーのさまざまな交通流パターン、道路状況、天候、照明のシミュレーション、ロボットの空間インテリジェンスの開発、交通ハブや群衆のビデオ分析の提供などが含まれていました。 したがって、今回の評価では、指定された 6 つのアクションを実行させるなど、物理世界と因果論理の理解に焦点を当てます。 (3/6)
または、LongCat-Video が作成した mukbang ビデオをご覧ください。 食べ物が口に入ると、皿の上の量が減り、それに合わせて人物が表情豊かにムクバンをします。映像の鮮明度と照明をもう少し抑えた方が良いでしょう。 (4/6)
商品を販売している様子を一人称視点で観察することもできます。 キャラクターの口の形、まばたき、そして手の動きに注目してください。現時点では音は出ていませんが、1分間の映像では口の形がループすることはありません。また、手で香水瓶を振ると、中の液体もそれに応じてわずかに揺れます。 (5/6)
5 分間のビデオを不具合なくネイティブに出力できるのはなぜですか? このロボットは、ビデオ継続タスクと呼ばれる事前学習手法を採用しています。学習中、LongCat-Videoは断片的な短いクリップではなく、大量のテレビシリーズを視聴します。その脳は、シーンがどのように見えるかではなく、次に何が起こるかを自然に考えます。 モデルがテレビシリーズを視聴する際、フレームごとにではなく、セグメントごとに、そしてイベントごとに視聴します。モデルは、行動の「導入、展開、クライマックス、そして結末」を理解します。これはブロック因果的注意と呼ばれるメカニズムです。これにより、長い一連の行動が簡単に途切れることはありません。 LongCat-Videoは、長い動画を生成する際に、背景の建物など、以前に計算された変化しない要素もキャッシュするため、フレームごとに再計算する必要がありません。これにより、動画の長さを5分まで延長できます。 (6/6)
