X (Twitter)

Zangshifu가 Seedance 1.5 Pro 비디오 모델을 처음으로 테스트해봤습니다! 이번 작품은 오디오와 비디오 동시 재생을 지원할 뿐만 아니라, 더욱 놀랍게도 방언 생성 기능까지 탑재했습니다. 또한, 감정 표현과 복잡한 카메라 움직임 표현에서도 상당한 개선이 이루어졌습니다. Volcano Engine, Doubao, JiMeng을 사용해 보세요. 먼저 Master Zang의 테스트 영상 모음을 살펴보세요. 아래는 구체적인 시험 문제 및 안내 사항입니다 👇

공사가 끝날 때까지 기다리기 귀찮으mp.weixin.qq.com/s/LDYnJi5VvUuM… https://t.co/L6UdEtrxlC

먼저, 저는 산시성에서 사용되는 방언을 하나 발견했는데, 그다지 방언답지 않은 것 같습니다. 표준 중국어를 구사하는 많은 사람들이 이해할 수 있을 것 같지만, 매우 독특한 발음을 가진 단어들도 있습니다. 이 과제는 내용이 표준 중국어와 매우 유사하고, 많은 단어의 철자를 표기하기 어렵기 때문에 일반적으로 상당히 어렵습니다. 많은 노력을 기울여야만 제대로 해낼 수 있습니다. 동시에, 전체적인 영상과 음성 통합이 얼마나 잘 되는지 확인하기 위해 제가 매일 시청하는 산시성 국수 먹기 라이브 스트리밍 영상인 원성비디오(Wensheng Video)를 선택했습니다. 먹는 행위는 말에도 영향을 미치기 때문에, 이를 통해 모델의 장면 판단 능력을 테스트할 수 있습니다. 결과는 꽤 놀라웠습니다. 비교적 발음하기 어려운 두 단어인 "聊咋咧"와 "美滴很"가 정확하게 발음되었고, 억양 또한 산시성 사투리와 일치했습니다. 놀랍게도 그들은 지시를 꽤 잘 따랐습니다. 먼저 한 문장을 말하고, 음료를 마신 다음, 또 다른 문장을 말해야 한다는 것을 알고 있었습니다. 마시면서 이야기하는 동안, 병을 입에 완전히 넣지 않았는데, 그 순간에는 말을 할 수 없다는 것을 알고 있었기 때문입니다. 말하는 동안에는 병을 입에서 빼고, 말하기 전에 다시 한 모금 마시는 것을 알고 있었는데, 이는 매우 현실적이었습니다.

그다음은 쓰촨 방언 차례였습니다. 저는 아주 도전적인 시나리오를 선택하고, 나이, 성별, 외모가 모두 다른 세 명의 등장인물을 각기 다른 언어를 사용하는 상황에 배치했습니다. 솔직히 말해서 힌트가 좀 어려웠지만, Seedance 1.5 Pro는 정말 놀라웠습니다. 카드를 뽑을 때마다 힌트를 잘 활용해서 과제를 완료할 수 있었어요. 모두 각자의 역할에 맞는 어조와 음높이로 말했고, 목소리를 섞는 일도 없었다. 심지어 쓰촨 방언 특유의 표현인 "巴适得板"(ba shi de ban)도 꽤 정확하게 발음했다. 카메라 이동 방식을 따로 지정하지 않았는데, 마치 크레인처럼 카메라가 회전하면서 말하는 사람을 자동으로 비추었고, 손으로 들고 찍을 때처럼 약간 흔들리는 부분도 있었습니다. 마작 테이블에 앉아 있는, 화면에 보이지 않는 인물에게도 카메라가 고정되어 있어서 마치 그 사람이 손으로 들고 찍는 것처럼 보이기도 했습니다. 배경이 흐릿하게 처리된 가운데, 다른 사람들도 모두 운동을 하거나 각자의 일을 하고 있고, 대화는 매우 일상적인 분위기를 자아내어 이 12초짜리 영상은 놀라울 정도로 현실감 있게 다가온다.

마지막으로 광둥 요리입니다. 여기서는 일상생활의 느낌이 강한 식당 장면을 선택했으며, 역시 원생 비디오(Wen Sheng Video)를 활용했습니다. 카메라 워크는 정말 훌륭했습니다. 웨이터의 뒷모습에서 얼굴로 부드럽게 전환되었고, 그가 말하는 동안 카메라가 자연스럽게 그의 얼굴을 비추었습니다. 지시어 또한 매우 잘 지켜졌으며, 각 지시어의 세부적인 내용과 모든 동작의 타이밍에 세심한 주의를 기울였습니다. 제가 광둥어를 잘 이해하지 못하는데도 대화는 꽤 사실적으로 들렸습니다. 심지어 광둥어 특유의 발음도 따라 할 수 있었어요. "광둥어 전문가"분들의 의견도 환영합니다.

현재 다양한 AI 제작 인기 영화 및 TV 프로그램 중에서 실제 사람 이미지 외에도 반려동물 AI 영상이 상당한 비중을 차지하고 있습니다. 따라서 반려동물 소리와 입 모양 움직임의 동기화를 연구하는 것이 필요합니다.

먼저 고양이 먹방부터 살펴보겠습니다. 먹방은 음향 효과와 표정 연기에 높은 수준이 요구됩니다. 음식은 영상과 마찬가지로 영상 속 질감이 잘 표현되어야 하죠. 이 영상에서는 고양이가 군만두를 먹는 소리가 아주 먹음직스럽게 들립니다. 게다가 고양이는 씹는 동안 사람과 같은 황홀한 표정을 완벽하게 포착했고, 불쾌한 골짜기 현상도 없어서 상당히 인상적입니다.

고양이가 사람 말을 하도록 만드는 것은 입 모양뿐만 아니라 해부학적 구조 테스트도 포함합니다. 많은 영상에서 동물들이 사람 말을 할 때 혀와 이빨이 사람의 이빨처럼 변하는 것을 볼 수 있습니다. Seedance 1.5 Pro는 이 점에서 훌륭한 성능을 보여줍니다. 이 모델은 어린아이와 같은 목소리를 출력하며, 말의 리듬과 졸음을 표현하기 위해 "..."를 사용했습니다. 모델을 생성할 때, 해당 리듬에 맞춰 말 속도를 늦췄습니다.

오디오와 비주얼을 결합하는 능력에 대해 언급했듯이, 모델의 연기력과 감정 표현력 또한 매우 중요합니다. 감정이나 연기력은 오디오와 밀접한 관련이 있는 경우가 많으며, 시각적인 요소만으로는 원하는 효과를 표현하기에 충분하지 않습니다.

이 구절은 주로 두려움, 억압, 그리고 애원이 복합적으로 뒤섞인 감정을 표현하고 있습니다. 특히 눈빛은 매우 표현력이 풍부하여 두려움과 불안감을 효과적으로 전달합니다. 첫 문장은 마치 화자가 아직 결정을 내리지 못한 듯 아주 작은 목소리로 말했다. 하지만 두 번째 문장에 이르러서는 이미 말을 끝냈다는 자신감이 생긴 듯 목소리가 커졌다. 두 번째 문장이 나오는 순간 장면이 바뀌고, 그의 시선은 눈에 띄게 더 단호해진다. 숨을 가쁘게 쉴 때 목의 움직임과 입가에 맺히는 침의 묘사가 매우 뛰어나 사실감을 더욱 높였습니다.

2D 스타일의 아트 기법으로 립싱크와 표정 연기를 테스트해 보세요. 놀랍게도 2D 측면 프로필임에도 불구하고 모델의 입술 움직임, 표정, 감정 변화가 매우 잘 표현되었으며, 3D로 변환되려는 경향도 없이 상당히 안정적입니다. 마지막 부분의 흐느낌 소리가 말하는 목소리와 아주 잘 어우러지고, 로봇과 부딪힐 때 금속이 충돌하는 소리도 들리는 등 세부적인 부분까지 신경 쓴 점이 상당히 인상적입니다.

업데이트된 모델은 복잡한 카메라 움직임을 제어하는 데 훨씬 더 나은 성능을 보여줍니다. 이전 예시에서 이미 확인하셨겠지만요. 이제 좀 더 어려운 문제를 살펴보겠습니다.

첫째, 잘 알려진 고급 카메라 움직임 기법인 히치콕 줌이 있습니다. 우리가 여기서 한 일은 정말 황당했습니다. 12초 동안 끊임없이 이어지는 히치콕 스타일의 초고속 줌인 효과는 현실적으로 구현하기 매우 어려운 것이지만, 실제로 해낼 거라고는 전혀 예상하지 못했습니다. 등장인물들의 표정 또한 미묘하게 변화하며, 음향 효과는 줌 속도와 주인공의 호흡 리듬에 맞춰 변화하여 등장인물들의 긴장된 감정을 효과적으로 전달합니다.

이는 성공 가능성이 매우 낮은 시험이며, 각 분야별 규정이 매우 상세합니다. 보시는 바와 같이, 각 섹션의 지시사항에 필요한 내용이 제시되었으며, 인물이 가려지기 전과 후 모두 일관성이 잘 유지되었습니다. 카메라 움직임이 매우 안정적이었고, 어려운 회전 구간과 캐릭터가 정지 후 땀을 닦는 장면에서도 지시 사항을 정확히 따랐습니다. 특히 마지막에 얼굴을 클로즈업하는 장면이 매우 부드러웠습니다.

오늘, Volcano Engine은 Doubao 동영상 생성 모델인 Seedance 1.5 Pro를 공식 출시했습니다. 개인 사용자는 오늘부터 Jimeng AI, Doubao 앱 및 Volcano Ark 체험 센터에서 Seedance를 체험할 수 있으며, 기업 사용자는 12월 23일부터 Volcano Engine에서 모델 API를 사용할 수 있습니다.

歸藏(guizang.ai)(@op7418)의 스레드

작성자 정보

스레드 내용