X (Twitter)

現実世界の次の一秒を予測する北京人工知能研究院（BAAI）は、まったく新しいマルチモーダル世界モデル「Emu3.5」を発表しました。多くの従来の画像生成モデルの主な問題は次のとおりです。彼らは、世界の仕組みを支配する法則を「理解」しておらず、現実世界の物理的なルールや因果関係を理解することができません。 Emu3.5 は従来の画像生成を基盤として、AI による次の機能をさらに強化します。現実世界の空間関係を理解し、時間の経過とともに物体の変化のパターンを推論し、「次の瞬間」の世界がどうなるかを予測します。画像、テキスト、ビデオ用に個別のモデルを設計していた以前のモデルとは異なり、Emu3.5 ではこれらすべてを 1 つのシステムに統合しています。まず、画像、テキスト、ビデオなどのマルチモーダル情報がトークンに統合されました。モデルは「次のトークンを予測する」ことによって、異なるモダリティ間の関係を学習します。タスクは NSP として統一されています: 次の世界の状態を予測します (視覚的および言語的側面を含む)。 Emu3.5 では、「テキスト間のロジック」のみに焦点を当てることはなくなりました。代わりに、それは「世界がどのように変化するか」というモデルを教えます。つまり、区別がなくなるということです。これは画像、これは文章、これはビデオのフレームです。その目から見れば、それらはすべて同じ「世界の構成要素」のセットです。次に、モデルは次の 1 つのことだけを実行します。次のブロックが何になるかを予測します。次のブロックがテキスト行の場合はテキストを完了し、次のフレームの場合はアクションを完了し、次の結果の場合は世界の変化を推測します。それで：次のトークンを予測するということは、次の 1 秒で世界がどうなるかを予測するということです。

Emu3.5 のトレーニングデータには、約 790 年のビデオ期間が含まれています。ビデオは現実に最も近いデジタル記録であり、時間、空間、物理的な場所、意図に関する情報を伝えます。トレーニングビデオには次のものが含まれます。時間空間物理因果関係意図これらは世界を構成する5つの重要な要素です。実世界の経験から学ぶ

3D インタラクティブスクリーンの生成をサポートします。 Fei-Fei Li の World Labs に少し似ていますが、リアルでインタラクティブな 3D の世界を生成できます。

完全な「指導ステップ画像」を理解し、生成することができます。たとえば、次のことをお教えします。エビ、セロリ、豚肉の餃子の作り方は？それは：自動分解プロセスには、各ステップを完了する方法を示す図が含まれています。

Emu3.5 の最も中核的かつ革新的な機能は次のとおりです。現在のシーンに基づいて世界の次の状態、つまり「次の 1 秒で何が起こるか」を予測できます。例えば：風船を持った子供の写真をアップロードし、モデルに「子供の風船が誤って飛んでしまいました」と伝えます。この画像が生成されました↓

秋にこの木が果実でいっぱいになるとどのように見えるか、また果実が熟するとどのように見えるかを予測します。もちろん、GPT や Gemini などのモデルでもこれを実現できますが、中核となる原理は少し異なります。 GPT / Gemini は「言語論理における知識推測」の略です。 Emu3.5 は「物理的ダイナミクスの予測」の略です。

画像生成能力も十分です。

画像編集機能

詳しい紹介とレビmp.weixin.qq.com/s/4Hzrd22UYmdX…Tiu モデzh.emu.world/pages/web/land…SMiSYebzh.emu.world/pages/web/login://t.arxiv.org/pdf/2510.26583s://t.co/uRT03e8NZg

詳しい紹介とレビュー：https://t.co/jOEHirQTiu

モデル公式サイト：https://t.co/aXMSMiSYeb

オンラインで体験してください: https://t.co/vp7ZPvZmbQ

論文: https

小互（@imxiaohu）のスレッド

作者情報

スレッド内容