Con el lanzamiento de Veo3 y Sora2, la tendencia de desarrollo de los modelos de video de IA se ha vuelto muy clara: fusión de audio y video. Hoy, los desarrolladores nacionales finalmente se han puesto al día y Volcano Engine lanzó oficialmente Seedance 1.5 pro. Adopta una solución de cogeneración de audio y vídeo líder en la industria. Ha demostrado un potencial asombroso en la sincronización audiovisual, la interpretación de dialectos, el control del movimiento de la cámara y la expresión narrativa. Este es un conjunto de pruebas que realicé sobre diafonía y dialectos.
Además de las voces humanas, la velocidad de sincronización entre los efectos de sonido ambiental (SFX) y los visuales también es crucial, simplificando los flujos de trabajo de audio de IA, que antes eran complejos. Esto es especialmente importante en escenarios con requisitos de sonido de alta frecuencia, como escenas de videojuegos y escenas de efectos especiales de películas. Este modelo no solo entiende lo visual y lo sonoro, sino también la terminología de la fotografía profesional, lo que hace que sus movimientos de cámara sean más profesionales y continuos. Las actuaciones de los personajes también son más delicadas y realistas. Estos son algunos ejemplos de prueba; la tasa de éxito real al sacar cartas es del 50%.
La diferencia técnica fundamental entre Seedance 1.5 Pro y su predecesor es que ya no trata el sonido como un accesorio del vídeo. A través de la arquitectura nativa de entrenamiento MMDit y RLHF para escenarios conjuntos de audio y video, resuelve los problemas de los videos de IA anteriores que eran "buenos en calidad de imagen pero carecían de expresión, sonido y sensación cinematográfica", especialmente en dialectos chinos y control de fotografía profesional, formando una ventaja competitiva diferenciada. Algunas características del diseño arquitectónico: 1. Basado en la arquitectura MMDIT (Transformador de Difusión Multimodal). Adopta un diseño de doble rama e integra un módulo conjunto intermodal. Esto permite una interacción profunda entre los flujos visuales y auditivos durante el proceso de generación, garantizando una sincronización temporal y una consistencia semántica extremadamente altas. 2. RLHF con retroalimentación de audio. Basándose en SFT, se desarrolló un algoritmo de aprendizaje por refuerzo (RLHF) específicamente para el contexto audiovisual. Utiliza un modelo de recompensa multidimensional para evaluar la calidad del video, el rendimiento estético y la fidelidad del audio. 3. Canal de inferencia. Su cadena de inferencia incluye: palabra de solicitud del usuario -> ingeniería de palabras de solicitud -> codificador de texto -> modelo generativo conjunto (DiT) -> refinador de video/audio -> salida. 4. Criterios de evaluación: Se ha mejorado el parámetro de evaluación. Además de la calidad de imagen, se ha añadido una nueva dimensión de "vívida de video" (dividida en dos subdimensiones: acción y toma) y cuatro dimensiones de audio (cumplimiento de comandos, calidad de sonido, sincronización audiovisual y expresividad de audio). Informe técnico completo disponible en: https://t.co/sc5YoGlMJt
Seedance 1.5 Pro representa un avance significativo en la generación de video con IA, pasando de la era del cine mudo a la del cine sonoro. Demuestra un potencial notable en sincronización audiovisual, interpretación de dialectos, control del movimiento de cámara y expresión narrativa. Si bien aún se puede mejorar la compatibilidad con ciertos dialectos (como el mandarín del noreste y el shanghainés) y la estabilidad en escenas complejas (con una tasa de éxito de aproximadamente el 50%), ya es capaz de ayudar a los creadores a producir cortometrajes, demos publicitarios e incluso guiones gráficos. Punto de acceso: Seedance 1.5 Pro ya está disponible oficialmente y se puede jugar en estos lugares: Jimeng AI: En el navegador web, seleccione "Generación de video" -> Selección de modelo: Video 3.5 Pro. Aplicación Doubao: Ingrese "Hacer que la foto se mueva" en el cuadro de diálogo -> Cargar foto -> Seleccionar modelo 1.5 Pro (en versión beta). API para desarrolladores: La próxima semana, la API de modelos de Seedance 1.5 Pro estará disponible en Volcano Engine. Ya puedes experimentar los efectos de los modelos en el Centro de Experiencias de Volcano Ark y también reservar servicios de modelos. https://t.co/iogZcW2wZ5