X (Twitter)

為什麼可以原生輸出5分鐘的不穿幫的視頻，它依託了一種叫做視訊續寫任務的預訓練方式。在訓練的時候，LongCat-Video看的不是零碎的短片，而是大量的連續劇。它的大腦天生就在思考接下來會發生什麼，而不是這個畫面該長什麼樣子。模型在看連續劇的時候，不是一幀一幀地看，而是一段一段、一個事件一個事件地看。它理解的是“動作的起承轉合”，這是一種稱為Block-Causal Attention的機制，這樣生成的長時間的動作不會輕易斷裂在生成長影片時，LongCat-Video還會把前面算過的不變的東西，比如背景裡的那棟樓，先緩存起來，不用每一幀都重新算一遍，這樣就可以提升到5分鐘了（6/6）

來自卡尔的AI沃茨（@aiwarts）的推文串

作者資訊

推文串內容