또한, 사람들이 물건을 파는 모습을 1인칭 시점에서 볼 수도 있습니다. 캐릭터의 입 모양, 눈 깜빡임, 손동작에 주의 깊게 집중하세요. 현재 소리는 없지만, 1분 분량의 영상에는 입 모양이 반복되는 장면이 없습니다. 또한, 손이 향수병을 흔들면 안에 든 액체가 그에 맞춰 살짝 흔들립니다. (5/6)
왜 아무런 오류 없이 5분짜리 비디오를 기본적으로 출력할 수 있나요? 이 알고리즘은 비디오 연속 작업(Video Continuation Tasks)이라는 사전 학습 방법을 사용합니다. LongCat-Video는 학습 과정에서 단편화된 짧은 영상을 시청하지 않고, 대신 다수의 TV 시리즈를 시청합니다. 뇌는 자연스럽게 장면이 어떻게 보여야 하는지보다는 다음에 무슨 일이 일어날지 생각합니다. 이 모델은 TV 시리즈를 시청할 때 프레임 단위로 시청하는 것이 아니라, 세그먼트 단위로, 사건 단위로 시청합니다. 행동의 "도입, 전개, 절정, 결론"을 이해하는 이 메커니즘을 블록-인과 주의(Block-Causal Attention)라고 합니다. 이렇게 하면 긴 동작 시퀀스가 쉽게 끊어지지 않습니다. 긴 비디오를 생성할 때 LongCat-Video는 배경의 건물과 같이 이전에 계산된 변하지 않는 요소도 캐시하므로 매 프레임마다 다시 계산할 필요가 없습니다. 이를 통해 비디오 길이를 5분으로 늘릴 수 있습니다. (6/6)