北京人工知能研究院(BAAI)は、最新のマルチモーダル世界モデル「Emu3.5」をリリースしました。このモデルは、次のトークンを予測することでテキスト、画像、動画を理解・生成し、その画像生成・編集機能はNano Bananaに匹敵します。 イベントの順序と因果関係を理解し、次に何が起こるかを予測する能力により、AI は単純なコンテンツ生成ツールから、一貫性のある作成、タスク計画、物理世界との対話が可能な汎用インテリジェント エージェントへと進化しました。 10TB のデータでトレーニングし、DiDA テクノロジーで加速した結果、推論速度が 20 倍向上しました。 チュートリアル、コミック、超高解像度のムービーをワンクリックで生成できるほか、ロボット/AR のステップバイステップのアニメーションも生成できます。 たとえば、中国語と英語の両方の説明に基づいて、フォトリアリスティックな画像を生成できます。 物理世界におけるタスクを理解し、実行することができます。人間が服を畳むプロセスを観察することで、タスクをロボットが理解して実行できる一連の具体的なステップに分解し、ロボットが物理的な操作を完了できるように誘導します。 #AI世界モデル#Emu
github:github.com/baaivision/Emu…