為什麼可以原生輸出5分鐘的不穿幫的視頻, 它依託了一種叫做視訊續寫任務的預訓練方式。在訓練的時候,LongCat-Video看的不是零碎的短片,而是大量的連續劇。它的大腦天生就在思考接下來會發生什麼,而不是這個畫面該長什麼樣子。 模型在看連續劇的時候,不是一幀一幀地看,而是一段一段、一個事件一個事件地看。它理解的是“動作的起承轉合”,這是一種稱為Block-Causal Attention的機制,這樣生成的長時間的動作不會輕易斷裂 在生成長影片時,LongCat-Video還會把前面算過的不變的東西,比如背景裡的那棟樓,先緩存起來,不用每一幀都重新算一遍,這樣就可以提升到5分鐘了 (6/6)
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。