X (Twitter)

智源人工智慧研究院剛剛放出了最新多模態世界模型：Emu3.5，透過預測下一個token的方式來理解和生成文本、圖像、視頻，圖像生成/編輯媲美Nano Banana 就是它能理解事物發展的順序和因果關係，預測下一刻會發生什麼，這使它從一個簡單的內容生成工具，進化成了一個能進行連貫創作、任務規劃、物理世界交互的通用智能體在10T資料上訓練，用DiDA技術加速，推理速度提升了20倍能一鍵出教學、漫畫、超清大片，還能給機器人/AR生成分步動作例如，能根據中英文描述，產生照片級真實感的圖像能理解並執行物理世界任務，它透過觀察人類疊衣服過程，能把這個任務分解成機器人可以理解和執行的一系列具體步驟，來引導機器人完成物理操作 #AI世界模型 #Emu

github：github.com/baaivision/Emu…

来自 AIGCLINK（@aigclink）的推文线程

作者信息

线程正文