預測真實世界下一秒 北京智源研究院推出全新的多模態世界模型:Emu3.5 很多傳統影像生成模型的主要問題是: 它們「不懂世界」運作的規律,無法理解真實世界的物理規則和因果關係。 Emu3.5在傳統影像生成的基礎上,進一步讓AI具備: 理解真實世界的空間關係推理物體隨時間變化的規律預測「世界下一秒」會是什麼樣 有別於以往為圖像、文字、視訊分開設計模型,Emu3.5 將它們全部「統一」在一個系統中: 首先把多模態資訊包含圖文影片都統一成了token; 模型透過「預測下一個token」來學習不同模態間的關係; 任務統一為 NSP:預測下一個世界狀態(包括視覺和語言)。 Emu3.5 不再只關注“文本之間的邏輯”, 而是讓模型學習「世界是如何改變的」。 意思就是它不再區分: 這是一張圖這是一句話這是影片的一幀 在它眼裡,它們都是同一套「世界積木」。 然後模型只做一件事: 預測下一塊積木是什麼 如果下一塊積木是一行字→ 它補全文字如果是下一幀畫面→ 它補全動作如果是下一步結果→ 它推演世界變化 所以: 預測下一Token = 預測「世界下一秒」會是什麼樣
Emu3.5的訓練資料包含 約790 年長的影片長度。 影片是現實最接近的數位化記錄:同時攜帶時間、空間、物理與意圖訊息。 訓練影片包含: 時間(Time) 空間(Space) 物理(Physics) 因果(Causality) 意圖(Intent) 也就是世界的五個本質元素。 學習真實的世界經驗
它支援生成3D交互畫面 有點類似李飛飛的World Labs,可以生成式一個真實的可互動的立體世界。
能理解並產生完整的「教學步驟圖」。 例如教你: 如何烹調蝦仁西芹豬肉餃子? 它會: 自動拆解步驟每一步驟都有示意圖教你如何一步一步完成
Emu3.5 最核心、最創新的能力是: 它能根據目前的場景,預測世界的下一個狀態,也就是「下一秒會發生什麼事」。 舉例: 上傳一張小孩拿著氣球的照片,然後告訴模型:小孩氣球不小心飛走了 它產生了這樣一張↓
預測一下這棵樹到了秋天結滿果實,果實成熟的樣子 當然這些像GPT和Gemini 模型也可以實現,但核心原理有點不同 GPT / Gemini 是「語言邏輯的知識推測」; Emu3.5 是「物理動態的預測」。
影像生成能力也還行
影像編輯能力
詳細介紹與評測:mp.weixin.qq.com/s/4Hzrd22UYmdX… 模型官網:zh.emu.world/pages/web/land… 線上體驗:zh.emu.world/pages/web/login 論文:arxiv.org/pdf/2510.26583











