저는 136억 개의 매개변수를 가진 Meituan의 첫 번째 AI 비디오 모델인 LongCat-Video를 테스트했습니다. 이 단일 모델은 텍스트와 이미지로부터 비디오를 생성하고, 비디오 연속 재생을 수행하며, 720p/30fps의 매우 긴 비디오를 생성할 수 있습니다. 심지어 Meituan LongCat 팀으로부터 내부 테스트 접근 권한을 얻기 위해 제 네트워크를 활용하기도 했습니다. 예를 들어, 이 영상에서 LongCat-Video를 사용해서 스토리를 몇 초부터 이어갔는지 알 수 있나요? 👇 (1/6)
답은 2초 후에 모든 것이 생성된 콘텐츠가 된다는 것입니다. LongCat-Video는 1인칭 시점의 시간 여행 영상을 제작하는 데 탁월하며, 실제 세계와 매우 유사한 자연스럽고 일관된 프로세스를 통해 한 번에 5분 분량의 시간 여행 영상을 제작할 수도 있습니다. (2/6)
기술팀은 LongCat-Video를 월드 모델로 정의합니다. 다양한 스타일과 장면의 비디오를 생성하는 것을 목표로 하는 일반적인 비디오 모델과 달리, 월드 모델은 현실 세계의 역학, 물리 법칙, 그리고 인과 관계를 이해하는 것을 목표로 합니다. NVIDIA는 GTC에서 이 개념을 반복적으로 강조했으며, 그들이 발표한 응용 사례에는 스마트카를 위한 다양한 교통 흐름 패턴, 도로 상황, 날씨 및 조명 시뮬레이션, 로봇을 위한 공간 지능 개발, 교통 허브 및 군중을 위한 비디오 분석 제공 등이 포함되었습니다. 따라서 이 평가에서는 물리적 세계와 인과 논리에 대한 이해에 초점을 맞춰, 예를 들어 지정된 6가지 동작을 수행하게 하는 것에 초점을 맞출 것입니다. (3/6)
아니면 LongCat-Video가 만든 먹방 영상을 확인해 보세요. 음식이 입에 들어가면서 접시에 담긴 음식의 양이 줄어들고, 그에 맞춰 먹방 표정도 풍부해집니다. 이미지의 선명도와 조명이 좀 더 선명했으면 더 좋았을 텐데요. (4/6)
또한, 사람들이 물건을 파는 모습을 1인칭 시점에서 볼 수도 있습니다. 캐릭터의 입 모양, 눈 깜빡임, 손동작에 주의 깊게 집중하세요. 현재 소리는 없지만, 1분 분량의 영상에는 입 모양이 반복되는 장면이 없습니다. 또한, 손이 향수병을 흔들면 안에 든 액체가 그에 맞춰 살짝 흔들립니다. (5/6)
왜 아무런 오류 없이 5분짜리 비디오를 기본적으로 출력할 수 있나요? 이 알고리즘은 비디오 연속 작업(Video Continuation Tasks)이라는 사전 학습 방법을 사용합니다. LongCat-Video는 학습 과정에서 단편화된 짧은 영상을 시청하지 않고, 대신 다수의 TV 시리즈를 시청합니다. 뇌는 자연스럽게 장면이 어떻게 보여야 하는지보다는 다음에 무슨 일이 일어날지 생각합니다. 이 모델은 TV 시리즈를 시청할 때 프레임 단위로 시청하는 것이 아니라, 세그먼트 단위로, 사건 단위로 시청합니다. 행동의 "도입, 전개, 절정, 결론"을 이해하는 이 메커니즘을 블록-인과 주의(Block-Causal Attention)라고 합니다. 이렇게 하면 긴 동작 시퀀스가 쉽게 끊어지지 않습니다. 긴 비디오를 생성할 때 LongCat-Video는 배경의 건물과 같이 이전에 계산된 변하지 않는 요소도 캐시하므로 매 프레임마다 다시 계산할 필요가 없습니다. 이를 통해 비디오 길이를 5분으로 늘릴 수 있습니다. (6/6)
