還可以看看人物第一視角口播賣貨, 重點放在人物的嘴形、眨眼、手部動作,雖然目前是沒有聲音的,但一分鐘的畫面裡面沒有出現過嘴形來回循環播放的片段,而且手部晃動這個香水的時候,瓶子裡的液體也會對應細微晃動。 (5/6)
為什麼可以原生輸出5分鐘的不穿幫的視頻, 它依託了一種叫做視訊續寫任務的預訓練方式。在訓練的時候,LongCat-Video看的不是零碎的短片,而是大量的連續劇。它的大腦天生就在思考接下來會發生什麼,而不是這個畫面該長什麼樣子。 模型在看連續劇的時候,不是一幀一幀地看,而是一段一段、一個事件一個事件地看。它理解的是“動作的起承轉合”,這是一種稱為Block-Causal Attention的機制,這樣生成的長時間的動作不會輕易斷裂 在生成長影片時,LongCat-Video還會把前面算過的不變的東西,比如背景裡的那棟樓,先緩存起來,不用每一幀都重新算一遍,這樣就可以提升到5分鐘了 (6/6)