Veo3와 Sora2의 출시로 AI 비디오 모델의 발전 추세가 오디오와 비디오 융합으로 뚜렷해졌습니다. 오늘날 국내 개발사들도 마침내 따라잡았습니다. 볼케이노 엔진이 Seedance 1.5 Pro를 공식 출시했기 때문입니다. 이 시스템은 업계 최고 수준의 오디오 및 비디오 동시 발전 솔루션을 채택하고 있습니다. 이 시스템은 시청각 동기화, 방언 통역, 카메라 움직임 제어 및 내러티브 표현에서 놀라운 잠재력을 보여주었습니다. 이것은 제가 혼선과 방언에 대해 실시한 테스트 결과입니다.
사람 목소리 외에도 주변 음향 효과(SFX)와 영상 간의 동기화율 또한 매우 중요하며, 이는 기존의 복잡한 AI 오디오 워크플로우를 간소화합니다. 특히 게임 장면이나 영화 특수 효과 장면처럼 고주파 음향이 요구되는 시나리오에서 이러한 동기화율은 더욱 중요합니다. 이 모델은 시각 및 청각적 요소뿐만 아니라 전문 사진 용어까지 이해하여 더욱 전문적이고 자연스러운 카메라 움직임을 구현합니다. 등장인물들의 연기 또한 더욱 섬세하고 사실적입니다. 다음은 몇 가지 테스트 예시이며, 실제 카드 뽑기 성공률은 50%입니다.
Seedance 1.5 Pro와 이전 버전의 근본적인 기술적 차이점은 사운드를 더 이상 비디오의 부가 기능으로 취급하지 않는다는 점입니다. MMDit의 고유 아키텍처와 오디오 및 비디오 결합 시나리오를 위한 RLHF 학습을 통해, 특히 중국어 방언 및 전문 사진 촬영 제어 분야에서 "화질은 좋지만 표현력, 음향, 영화적 감성이 부족했던" 기존 AI 비디오의 문제점을 해결하여 차별화된 경쟁 우위를 확보합니다. 건축 설계의 몇 가지 특징은 다음과 같습니다. 1. MMDIT(다중 모달 확산 변환기) 아키텍처를 기반으로 하며, 이중 분기 설계를 채택하고 교차 모달 결합 모듈을 통합합니다. 이를 통해 생성 과정에서 시각 및 청각 스트림 간의 긴밀한 상호 작용이 가능해지며, 매우 높은 시간적 동기화와 의미적 일관성을 보장합니다. 2. 오디오 피드백을 활용한 강화 학습 알고리즘(RLHF). SFT를 기반으로 시청각 환경에 특화된 강화 학습(RLHF) 알고리즘이 개발되었습니다. 이 알고리즘은 다차원 보상 모델을 사용하여 비디오 품질, 미적 성능 및 오디오 충실도를 평가합니다. 3. 추론 파이프라인. 추론 과정은 사용자 입력 단어 -> 입력 단어 엔지니어링 -> 텍스트 인코더 -> 통합 생성 모델(DiT) -> 비디오/오디오 정제기 -> 출력으로 구성됩니다. 4. 평가 기준: 평가 기준이 상향 조정되었습니다. 화질 외에 "영상 생동감"(액션과 샷의 두 가지 하위 차원으로 나뉩니다)이라는 새로운 차원과 오디오의 네 가지 차원(명령 준수, 음질, 시청각 동기화, 오디오 표현력)이 추가되었습니다. 전체 기술 보고서는 다음 링크에서 확인할 수 있습니다: https://t.co/sc5YoGlMJt
Seedance 1.5 Pro는 AI 비디오 제작에 있어 무성 영화 시대에서 유성 영화 시대로의 중요한 도약을 의미합니다. 시청각 동기화, 방언 해석, 카메라 움직임 제어, 스토리텔링 표현 등에서 놀라운 잠재력을 보여줍니다. 특정 방언(예: 동북 표준어 및 상하이 방언) 지원과 복잡한 장면에서의 안정성 유지(성공률 약 50%)에는 개선의 여지가 있지만, 이미 단편 드라마, 광고 데모, 영화 스토리보드 제작에 있어 크리에이터들을 지원할 수 있는 역량을 갖추고 있습니다. 액세스 포인트: Seedance 1.5 Pro가 공식 출시되었으며 다음 플랫폼에서 플레이할 수 있습니다. Jimeng AI: 웹 브라우저에서 "비디오 생성" -> 모델 선택: Video 3.5 Pro를 선택하세요. Doubao 앱: 대화 상자에 "사진 움직이기"를 입력하고 -> 사진을 업로드한 다음 -> 1.5 Pro 모델(베타 버전)을 선택하세요. 개발자 API: 다음 주에 Seedance 1.5 Pro 모델 API가 Volcano Engine에서 제공될 예정입니다. 이제 Volcano Ark 체험 센터에서 모델 효과를 체험하고 모델 서비스도 예약할 수 있습니다. https://t.co/iogZcW2wZ5