대형 모델이 마침내 한 번에 5분짜리 영상을 생성할 수 있을까요? 푸단대학교와 난징대학교를 비롯한 여러 대학의 연구진이 새로운 멀티모달 제어 가능 초장편 비디오 세계 모델인 '롱비 2(LongVie 2)'를 발표했습니다. 이 모델의 가장 중요한 특징은 최대 5분 길이의 비디오를 생성할 수 있다는 점입니다. 이 모델은 대폭 수정된 WAN 2.1을 기반으로 하며, 멀티모달 안내, 입력 프레임에 대한 화질 저하 인식 학습, 그리고 과거 맥락 안내를 포함하는 3단계 파이프라인을 구현하여 3~5분 분량의 일관성 있는 비디오를 출력합니다. 이 모델의 핵심은 단순한 프레임 예측보다는 인과 관계의 일관성을 우선시하는 것입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.