這篇微軟和復旦合作的AniX論文有點意思,讓AI解讀下: 如果能把自己設計的角色放進一個3D世界,然後像玩遊戲一樣控制它做各種動作,會是什麼感覺? 微軟研究院和復旦大學的團隊做了一個叫做AniX的系統,基本上就是這麼一回事。 給它一個3D場景(用3DGS技術生成的那種),再給它一個角色,然後用自然語言告訴它"往前跑"或者"彈吉他",它就能生成相應的視頻。 最核心的能力是四個面向: 1. 場景和角色的一致性產生的影片裡,角色的外表和場景的樣子都跟你提供的保持一致。 2. 動作庫很豐富不只是簡單的走路跑步,還能做手勢(例如揮手、敬禮),甚至和物體互動(打電話、彈吉他)。 訓練資料裡只有4個基礎移動動作,但模型學會了舉一反三,能做142種沒看過的動作。 (??!) 3. 可以持續互動你可以一輪一輪地給指令,每次生成的影片都會接著上一段,保持連貫性。就像真的在探索一個世界。 4. 鏡頭可控這個設計挺聰明。它不是用複雜的數學編碼來控制鏡頭,而是直接在3DGS場景裡渲染出你想要的鏡頭路徑,然後把這個渲染結果當作條件輸入。 相當於給模型看了一個"參考影片",告訴它鏡頭該怎麼動。 整個系統的核心想法是條件自回歸影片生成。 訓練資料來源很接地氣,就是GTA-V遊戲錄影。 他們錄了2000多段視頻,每段只包含一個動作,然後做了三件事: ① 把角色摳出來② 把背景補全(用AI修復工具) ③ 給動作打標籤 每個角色都用四個視角的圖片來表示(前後左右),這樣模型就能從不同角度認識這個角色。 模型架構基於HunyuanCustom(130億參數),用的是Flow Matching訓練方法。 怎麼把各種條件資訊餵給模型: ① 場景和角色遮罩直接融合到噪音② 文字指令和多視角角色圖片拼接到序列裡③ 用不同的位置編碼來區分這些輸入 有個有趣的發現: 用簡單的移動動作資料微調預訓練模型,不但沒破壞模型的泛化能力,反而讓動作品質變好了。 感覺跟大語言模型後訓練很像,微調不是重新學知識,而是調整"說話風格"。 他們用WorldScore這套評估系統測了視覺品質。 結果在幾乎所有指標上都超過了現有的視訊生成模型和專門的世界模型。 動作控製成功率特別能說明問題: ① 基礎移動動作:100%成功② 142新動作:80.7%成功 對比一下,其他模型在基礎動作的成功率都在50%以下,有些甚至只有3.3%。 角色一致性以DINOv2和CLIP分數來衡量,AniX分別達到0.698和0.721,明顯高於其他方法。 幾個關鍵設計選擇 多元視角角色輸入確實有用。 他們對比了單視角、雙視角和四視角,角色一致性分數隨著視角增加而提升。 角色遮罩也很重要。 有了每幀的遮罩訊息,模型能更好地區分哪些是動態的角色,哪些是靜態的場景。 視覺條件對長時間生成的幫助很明顯。 如果去掉3DGS場景條件或多視角角色條件,生成品質會隨著時間推移明顯下降。 原始模型產生93幀360P影片需要121秒(單張H100)。 用DMD2蒸餾成4步驟版本後,只需要21秒,品質幾乎沒損失。 想到幾個有意思的點: 遊戲數據的價值。 GTA-V這種遊戲提供了大量結構化的訓練數據,角色、場景、動作都是現成的。 這可能是個被低估的資料來源。 混合訓練策略。 他們後來加了400段真人視頻,用"rendered"和"real"標籤來區分遊戲和真實風格。 這種簡單的數據標註就能讓模型學會區分不同的視覺風格,挺巧妙的。 泛化能力的來源。 只用4個基礎動作訓練,卻能做142種新動作,這表示預訓練模型裡已經有豐富的人體運動知識了。 微調只是在激活和對齊這些知識。 鏡頭控制的思路。 直接渲染參考影片比編碼成抽象的數學表示更直觀,也更可控。 這種"所見即所得"的設計理念值得借鏡。 論文裡沒明說局限性,但看得出來的問題: 訓練資料還是太少,2000多段影片對於這麼複雜的任務來說不算多。 物體互動動作的成功率(80.7%)雖然不錯,但還有提升空間。 長時間生成雖然有改善,但從圖表看,品質還是會隨時間下降,這可能是自迴歸模型的通病。 場景必須是3DGS格式,這對一般使用者來說門檻還是有點高。 雖然可以用Marble這種工俱生成,但又多了一層依賴。 整體來說,AniX在可控角色動畫生成這個方向上往前走了一大步。 不需要大量數據和複雜設計,找對方法,小數據也能做出大效果。
原論文網址https://t.co/0RSMzZPuon