現実世界の次の一秒を予測する 北京人工知能研究院(BAAI)は、まったく新しいマルチモーダル世界モデル「Emu3.5」を発表しました。 多くの従来の画像生成モデルの主な問題は次のとおりです。 彼らは、世界の仕組みを支配する法則を「理解」しておらず、現実世界の物理的なルールや因果関係を理解することができません。 Emu3.5 は従来の画像生成を基盤として、AI による次の機能をさらに強化します。 現実世界の空間関係を理解し、時間の経過とともに物体の変化のパターンを推論し、「次の瞬間」の世界がどうなるかを予測します。 画像、テキスト、ビデオ用に個別のモデルを設計していた以前のモデルとは異なり、Emu3.5 ではこれらすべてを 1 つのシステムに統合しています。 まず、画像、テキスト、ビデオなどのマルチモーダル情報がトークンに統合されました。 モデルは「次のトークンを予測する」ことによって、異なるモダリティ間の関係を学習します。 タスクは NSP として統一されています: 次の世界の状態を予測します (視覚的および言語的側面を含む)。 Emu3.5 では、「テキスト間のロジック」のみに焦点を当てることはなくなりました。 代わりに、それは「世界がどのように変化するか」というモデルを教えます。 つまり、区別がなくなるということです。 これは画像、これは文章、これはビデオのフレームです。 その目から見れば、それらはすべて同じ「世界の構成要素」のセットです。 次に、モデルは次の 1 つのことだけを実行します。 次のブロックが何になるかを予測します。 次のブロックがテキスト行の場合はテキストを完了し、次のフレームの場合はアクションを完了し、次の結果の場合は世界の変化を推測します。 それで: 次のトークンを予測するということは、次の 1 秒で世界がどうなるかを予測するということです。
Emu3.5 のトレーニング データには、約 790 年のビデオ期間が含まれています。 ビデオは現実に最も近いデジタル記録であり、時間、空間、物理的な場所、意図に関する情報を伝えます。 トレーニング ビデオには次のものが含まれます。 時間 空間 物理 因果関係 意図 これらは世界を構成する5つの重要な要素です。 実世界の経験から学ぶ
3D インタラクティブ スクリーンの生成をサポートします。 Fei-Fei Li の World Labs に少し似ていますが、リアルでインタラクティブな 3D の世界を生成できます。
完全な「指導ステップ画像」を理解し、生成することができます。 たとえば、次のことをお教えします。 エビ、セロリ、豚肉の餃子の作り方は? それは: 自動分解プロセスには、各ステップを完了する方法を示す図が含まれています。
Emu3.5 の最も中核的かつ革新的な機能は次のとおりです。 現在のシーンに基づいて世界の次の状態、つまり「次の 1 秒で何が起こるか」を予測できます。 例えば: 風船を持った子供の写真をアップロードし、モデルに「子供の風船が誤って飛んでしまいました」と伝えます。 この画像が生成されました↓
秋にこの木が果実でいっぱいになるとどのように見えるか、また果実が熟するとどのように見えるかを予測します。 もちろん、GPT や Gemini などのモデルでもこれを実現できますが、中核となる原理は少し異なります。 GPT / Gemini は「言語論理における知識推測」の略です。 Emu3.5 は「物理的ダイナミクスの予測」の略です。
画像生成能力も十分です。
画像編集機能
詳しい紹介とレビmp.weixin.qq.com/s/4Hzrd22UYmdX…Tiu モデzh.emu.world/pages/web/land…SMiSYebzh.emu.world/pages/web/login://t.arxiv.org/pdf/2510.26583s://t.co/uRT03e8NZg











