X (Twitter)

왜 아무런 오류 없이 5분짜리 비디오를 기본적으로 출력할 수 있나요? 이 알고리즘은 비디오 연속 작업(Video Continuation Tasks)이라는 사전 학습 방법을 사용합니다. LongCat-Video는 학습 과정에서 단편화된 짧은 영상을 시청하지 않고, 대신 다수의 TV 시리즈를 시청합니다. 뇌는 자연스럽게 장면이 어떻게 보여야 하는지보다는 다음에 무슨 일이 일어날지 생각합니다. 이 모델은 TV 시리즈를 시청할 때 프레임 단위로 시청하는 것이 아니라, 세그먼트 단위로, 사건 단위로 시청합니다. 행동의 "도입, 전개, 절정, 결론"을 이해하는 이 메커니즘을 블록-인과 주의(Block-Causal Attention)라고 합니다. 이렇게 하면 긴 동작 시퀀스가 쉽게 끊어지지 않습니다. 긴 비디오를 생성할 때 LongCat-Video는 배경의 건물과 같이 이전에 계산된 변하지 않는 요소도 캐시하므로 매 프레임마다 다시 계산할 필요가 없습니다. 이를 통해 비디오 길이를 5분으로 늘릴 수 있습니다. (6/6)

卡尔的AI沃茨(@aiwarts)의 스레드

작성자 정보

스레드 내용