마이크로소프트와 푸단대학교의 공동 연구인 이 AniX 논문은 꽤 흥미롭습니다. 인공지능이 이 논문을 해석해 보도록 하겠습니다. 직접 디자인한 캐릭터를 3D 세계에 배치하고 게임처럼 다양한 동작을 수행하도록 조종하는 것은 어떤 느낌일까요? 마이크로소프트 리서치와 푸단대학교 연구팀이 AniX라는 시스템을 개발했는데, 이 글은 바로 그 시스템에 관한 이야기입니다. 3DGS 기술로 생성된 3D 장면과 캐릭터를 입력한 다음 자연어로 "앞으로 달려라" 또는 "기타를 연주하라"라고 명령하면 해당 영상을 생성할 수 있습니다. 핵심 역량은 네 가지 측면에 있습니다. 1. 장면 및 등장인물의 일관성: 생성된 영상에서 등장인물의 모습과 장면의 모습이 제공해주신 내용과 일치합니다. 2. 액션 라이브러리는 매우 풍부하여 단순한 걷기와 달리기뿐만 아니라 손 흔들기나 경례와 같은 제스처는 물론 전화 통화나 기타 연주와 같은 사물과의 상호작용까지 지원합니다. 훈련 데이터에는 기본적인 움직임 동작이 네 가지밖에 없었는데, 모델은 이를 일반화하여 142가지의 생소한 동작까지 수행할 수 있게 되었다니! 3. 지속적인 상호작용이 가능합니다. 매 라운드마다 지시를 내릴 수 있으며, 생성되는 각 영상은 이전 영상에서 이어져 연속성을 유지합니다. 마치 실제로 세상을 탐험하는 것과 같습니다. 4. 카메라 제어 방식 설계는 상당히 독창적입니다. 복잡한 수학적 코드를 사용하여 카메라를 제어하는 대신, 원하는 카메라 경로를 3DGS 장면에 직접 렌더링한 다음 이 렌더링 결과를 조건부 입력으로 사용합니다. 모델에게 "참고 영상"을 보여주고 카메라가 어떻게 움직여야 하는지 알려주는 것과 같습니다. 이 시스템의 핵심 아이디어는 조건부 자기회귀 비디오 생성입니다. 훈련 데이터는 매우 실용적인 출처, 즉 GTA-V 게임 녹화 영상에서 가져왔습니다. 그들은 각각 하나의 동작만 담긴 2,000개 이상의 영상을 녹화한 후 세 가지 일을 했습니다. ① 캐릭터를 추출합니다. ② (AI 복원 도구를 사용하여) 배경을 완성합니다. ③ 활동에 태그를 지정하세요 각 캐릭터는 정면, 후면, 좌측, 우측의 네 가지 관점에서 촬영된 이미지로 표현되므로 모델은 캐릭터를 다양한 각도에서 인식할 수 있습니다. 모델 아키텍처는 HunyuanCustom(130억 개 매개변수)을 기반으로 하며 Flow Matching 학습 방법을 사용합니다. 모델에 다양한 조건부 정보를 입력하는 방법: ① 장면 및 캐릭터 마스크가 노이즈에 직접 혼합됩니다. ② 텍스트 명령과 다중 시점 캐릭터 이미지가 시퀀스로 이어집니다. ③ 이러한 입력을 구분하기 위해 서로 다른 위치 코드가 사용됩니다. 흥미로운 발견이 있었습니다. 간단한 동작 데이터를 사용하여 사전 학습된 모델을 미세 조정하는 것은 모델의 일반화 능력을 손상시키지 않을 뿐만 아니라 동작 품질도 향상시켰습니다. 대규모 언어 모델을 훈련시키는 것과 비슷한 느낌입니다. 미세 조정은 지식을 다시 학습하는 것이 아니라 "말하는 스타일"을 조정하는 것입니다. 그들은 시각적 품질을 측정하기 위해 WorldScore 평가 시스템을 사용했습니다. 그 결과는 거의 모든 지표에서 기존 비디오 생성 모델과 특수 세계 모델보다 우수한 성능을 보였습니다. 모션 제어의 성공률은 특히 주목할 만합니다. ① 기본 동작 애니메이션: 성공률 100% ② 새로운 애니메이션 142개: 성공률 80.7% 이에 비해 다른 모델들은 기본적인 동작에 대한 성공률이 50% 미만이며, 심지어 3.3%까지 낮은 경우도 있습니다. 역할 일관성은 DINOv2 및 CLIP 점수를 사용하여 측정되었으며, AniX는 각각 0.698 및 0.721의 점수를 달성하여 다른 방법보다 유의미하게 높은 결과를 보였습니다. 몇 가지 핵심적인 디자인 선택 사항 다중 뷰 문자 입력은 확실히 유용합니다. 연구진은 단일 시점, 이중 시점, 사중 시점을 비교한 결과, 시점의 수가 증가할수록 캐릭터 일관성 점수가 높아지는 것을 발견했습니다. 문자 마스킹 또한 중요합니다. 각 프레임의 마스킹 정보를 활용하면 모델은 움직이는 캐릭터와 정적인 장면을 더욱 효과적으로 구분할 수 있습니다. 시각적 조건은 장기적인 생산에 분명히 도움이 된다. 3DGS 장면 조건이나 다중 시점 캐릭터 조건을 제거하면 시간이 지남에 따라 생성되는 품질이 크게 저하됩니다. 기존 모델은 360p 비디오 93프레임을 생성하는 데 121초가 걸립니다(H100 단일 카메라 기준). DMD2를 사용하여 4단계 증류 방식으로 변경한 후에는 품질 손실 없이 단 21초밖에 걸리지 않습니다. 몇 가지 흥미로운 점이 떠올랐습니다. 게임 데이터의 가치. GTA-V와 같은 게임은 캐릭터, 환경, 동작 등 풍부한 구조화된 학습 데이터를 제공합니다. 이는 과소평가된 데이터 소스일 수 있습니다. 하이브리드 훈련 전략. 그들은 나중에 "렌더링된"과 "실제"라는 라벨을 사용하여 게임 속 모습과 실제 모습을 구분하는 400개의 실사 영상을 추가했습니다. 이 간단한 데이터 주석 덕분에 모델은 서로 다른 시각적 스타일을 구별하는 법을 학습할 수 있는데, 이는 상당히 독창적인 방식입니다. 일반화 능력의 원천. 단 4가지 기본 동작만으로 142가지의 새로운 동작을 수행할 수 있다는 것은 사전 훈련된 모델이 이미 인간의 움직임에 대한 풍부한 지식을 담고 있음을 보여줍니다. 미세 조정이란 간단히 말해 이러한 지식을 활성화하고 조율하는 것입니다. 카메라 제어 방식. 참조 영상을 직접 렌더링하는 것이 추상적인 수학적 표현으로 인코딩하는 것보다 더 직관적이고 제어하기 쉽습니다. "보이는 그대로"라는 디자인 철학은 배울 가치가 있습니다. 논문에서는 한계점을 명시적으로 언급하지는 않았지만, 다음과 같은 문제점들이 분명하게 드러납니다. 학습 데이터가 아직 너무 부족합니다. 2,000개가 넘는 동영상으로는 이처럼 복잡한 작업을 수행하기에 충분하지 않습니다. 객체 상호작용 동작의 성공률(80.7%)은 양호하지만, 개선의 여지는 여전히 남아 있습니다. 세대 시간이 길어질수록 어느 정도 개선이 나타나지만, 차트에서 볼 수 있듯이 시간이 지남에 따라 품질은 여전히 저하됩니다. 이는 자기회귀 모델에서 흔히 나타나는 문제일 수 있습니다. 장면 파일은 3DGS 형식이어야 하는데, 이는 일반 사용자에게는 다소 어려운 부분입니다. Marble과 같은 도구를 사용하여 생성할 수는 있지만, 이는 또 다른 종속성 계층을 추가합니다. 전반적으로 AniX는 캐릭터 애니메이션 생성을 제어할 수 있는 방향으로 큰 진전을 이루었습니다. 방대한 양의 데이터나 복잡한 설계가 필요한 것은 아닙니다. 올바른 접근 방식을 찾으면 적은 양의 데이터로도 훌륭한 결과를 얻을 수 있습니다.
원문 논문은arxiv.org/pdf/2512.17796n 에서 확인할 수 있습니다.