實測美團第一個AI視頻模型LongCat-Video,13.6B參數,單一模型就能完成文生視頻,圖生視頻,視頻續寫,以及生成超長視頻,輸出的視頻參數是720p,30fps。發動了面子果實,找到美團LongCat團隊幫我開了內部測試權限。 例如這個視頻,你能看出從第幾秒開始是我用LongCat-Video續寫出來的嗎? 👇 (1/6)
答案是2秒之後全部都是生成的內容。 LongCat-Video很擅長這種第一視角的穿越視頻,甚至可以一次性生成5分鐘的穿越視頻,中間過程非常自然連貫,與真實世界非常相似。 (2/6)
技術團隊給LongCat-Video的定位是世界模型,跟普通的視訊模型追求生成風格多樣、場景多樣的影片的目標不同,世界模型,要理解現實世界的動態、物理規律和因果關係。 英偉達在GTC上反覆強調這個概念,他們給出的應用case,是給智能汽車模擬不同的交通流量模式、路況、天氣和光照,是給機器人開發空間智能,是給交通樞紐給人群提供視頻分析。 所以我這次測評,會專注於對物理世界和因果邏輯的理解,比方說讓它做出一個指定的6動作, (3/6)
或者再看看LongCat-Video做出來的吃播視頻, 食物進到了嘴巴裡的同時盤子中的分量在減少,並且人物是有相應的表現力吃播表情的,如果清晰度和畫面的打光可以少點銳化就好了。 (4/6)
還可以看看人物第一視角口播賣貨, 重點放在人物的嘴形、眨眼、手部動作,雖然目前是沒有聲音的,但一分鐘的畫面裡面沒有出現過嘴形來回循環播放的片段,而且手部晃動這個香水的時候,瓶子裡的液體也會對應細微晃動。 (5/6)
為什麼可以原生輸出5分鐘的不穿幫的視頻, 它依託了一種叫做視訊續寫任務的預訓練方式。在訓練的時候,LongCat-Video看的不是零碎的短片,而是大量的連續劇。它的大腦天生就在思考接下來會發生什麼,而不是這個畫面該長什麼樣子。 模型在看連續劇的時候,不是一幀一幀地看,而是一段一段、一個事件一個事件地看。它理解的是“動作的起承轉合”,這是一種稱為Block-Causal Attention的機制,這樣生成的長時間的動作不會輕易斷裂 在生成長影片時,LongCat-Video還會把前面算過的不變的東西,比如背景裡的那棟樓,先緩存起來,不用每一幀都重新算一遍,這樣就可以提升到5分鐘了 (6/6)
