英偉達版的“Banana”,英偉達開源了一款物理級圖像編輯模型:ChronoEdit-14B,靜態圖+一句話,4秒生成一張符合物理的圖像 ChronoEdit具備“時間觀念”和“物理常識”,它能理解動作,比如說“推倒”、“拿起”這種動作,可以根據它學到的物理常識,畫出這個動作發生後,世界應該變成什麼樣子 8 步驟擴散完成一次影像編輯,在H100上約4秒一張圖 從效果來看,預測動作發生結果的能力比較強,改變姿勢後,人物、服裝、背景風格的一致性也保持的比較好,光影、反射效果處理的也比較符合邏輯 可以用在遊戲製作、電影特效、機器人訓練等場景上 #ChronoEdit #AI圖片編輯
github:github.com/nv-tlabs/Chron… HF:huggingface.co/nvidia/ChronoE…