智源人工智慧研究院剛剛放出了最新多模態世界模型:Emu3.5,透過預測下一個token的方式來理解和生成文本、圖像、視頻,圖像生成/編輯媲美Nano Banana 就是它能理解事物發展的順序和因果關係,預測下一刻會發生什麼,這使它從一個簡單的內容生成工具,進化成了一個能進行連貫創作、任務規劃、物理世界交互的通用智能體 在10T資料上訓練,用DiDA技術加速,推理速度提升了20倍 能一鍵出教學、漫畫、超清大片,還能給機器人/AR生成分步動作 例如,能根據中英文描述,產生照片級真實感的圖像 能理解並執行物理世界任務,它透過觀察人類疊衣服過程,能把這個任務分解成機器人可以理解和執行的一系列具體步驟,來引導機器人完成物理操作 #AI世界模型#Emu
github:github.com/baaivision/Emu…