X (Twitter)

¡Primera prueba del modelo de vídeo Seedance 1.5 Pro por Zangshifu! Esta vez, admite la reproducción simultánea de audio y video, y aún más sorprendente, también admite la generación de dialectos. Al mismo tiempo, se han logrado mejoras significativas en la expresión emocional y los complejos movimientos de cámara durante la actuación. Puedes probar Volcano Engine, Doubao y JiMeng. Primero, echa un vistazo al video de prueba del Maestro Zang. A continuación se muestran las preguntas y indicaciones específicas de la prueba 👇

Si eres demasiado pmp.weixin.qq.com/s/LDYnJi5VvUuM… construcción 🚧, puedes leer el artículo completo aquí: https://t.co/L6UdEtrxlC

Primero, encontré un dialecto de Shaanxi que quizá no sea tan dialectal. Mucha gente que habla mandarín podría entenderlo, pero también tiene algunas palabras con pronunciaciones muy peculiares. Esto suele ser bastante difícil porque el material es muy similar al mandarín estándar y muchas palabras son difíciles de corregir. Solo con mucho esfuerzo se puede lograr un buen resultado. Al mismo tiempo, elegí la transmisión en vivo de la escena de comer fideos de Shaanxi que veo a diario, Wensheng Video, para ver qué tan bien se integran la imagen y el audio. Comer también afectará el discurso, lo que puede poner a prueba la percepción del modelo sobre la escena. El resultado fue bastante sorprendente. Las dos palabras relativamente difíciles, "聊咋咧" y "美滴很", se pronunciaron correctamente, y la entonación correspondía, efectivamente, a la del dialecto de Shaanxi. Sorprendentemente, siguieron las indicaciones bastante bien, sabiendo que debían decir una oración primero, luego beber la bebida y luego decir otra. Mientras bebía y hablaba, no se metió la botella del todo en la boca, porque sabía que no podía hablar en ese momento. Sabía que debía retirar la botella mientras hablaba y tomar otro sorbo antes de hablar, lo cual era muy realista.

Luego llegó el dialecto de Sichuan. Elegí un escenario muy desafiante y añadí tres personajes de diferentes edades, géneros y apariencias a las indicaciones, cada uno hablando un idioma diferente. Siendo sincero, las pistas eran un poco difíciles, pero Seedance 1.5 Pro me sorprendió mucho. Pude seguirlas bastante bien para completar la tarea cada vez que sacaba una carta. Todos hablaron con el tono y la intensidad adecuados a su papel, sin mezclar las voces. Incluso pronunciaron bastante bien la frase peculiar del dialecto de Sichuan: "巴适得板" (ba shi de ban). No especifiqué el método de movimiento de la cámara. La cámara se dirigía automáticamente a la persona que hablaba girándola como una grúa, y también se veía un ligero temblor al grabar con la cámara en mano. La cámara también estaba orientada hacia el personaje que no era visible en la mesa de mahjong, lo que daba la impresión de que estaba grabando con la cámara en mano. Con el fondo borroso, todos los demás también están haciendo ejercicio y sus propias cosas, y la conversación tiene un aire muy realista, lo que hace que este vídeo de 12 segundos sea excepcionalmente real.

Finalmente, está el cantonés. Aquí, elegimos una escena de restaurante con un fuerte sentido de la vida cotidiana, utilizando también Wen Sheng Video. El trabajo de cámara fue magnífico al generarlo. Pasó con fluidez de la espalda del camarero a su rostro, y la cámara enfocó con naturalidad el rostro del hombre mientras hablaba. Las palabras clave también están muy bien seguidas, con atención al detalle en cada palabra clave y en el tiempo de todas las líneas de acción. El diálogo me pareció bastante auténtico, aunque no entiendo muy bien el cantonés. Incluso pude pronunciar los sonidos cantoneses únicos. También agradecería cualquier comentario de la policía cantonesa.

Actualmente, entre las películas y series de televisión exitosas generadas por IA, además de imágenes de personas reales, los videos de mascotas con IA también representan una parte significativa del tráfico. Por lo tanto, es necesario examinar la sincronización de los sonidos y los movimientos labiales de las mascotas.

Primero está el mukbang del gato. El mukbang exige altos estándares de calidad en cuanto a efectos de sonido y expresiones faciales. La comida debe aparecer en un video con la misma textura que el video. En este caso, el sonido del gato comiendo dumplings fritos lo hace muy apetitoso. Además, el gato capturó perfectamente la expresión humana de éxtasis mientras masticaba, y no sufre el problema del valle inquietante, lo cual es bastante impresionante.

Para que un gato hable en lenguaje humano, no solo se requiere la forma de la boca, sino también una evaluación de la estructura anatómica. En muchos videos, cuando los animales hablan en lenguaje humano, sus lenguas y dientes se asemejan a los humanos. Seedance 1.5 Pro es un excelente ejemplo en este aspecto. El modelo emite una voz infantil, y también usamos "..." para representar el ritmo del habla y expresar somnolencia. Al generar el modelo, reducimos la velocidad del habla según el ritmo correspondiente.

Dado que mencionamos la capacidad de combinar audio e imágenes, la capacidad de interpretación y la expresión emocional del modelo también son muy importantes. A menudo, las emociones o la capacidad de interpretación están estrechamente relacionadas con el audio; las imágenes por sí solas no son suficientes para lograr el efecto deseado.

Este pasaje expresa principalmente una compleja mezcla de miedo, represión y súplica. Los ojos son particularmente expresivos, transmitiendo eficazmente las emociones de miedo y aprensión. La primera frase la pronunció en voz muy baja, como si aún no se hubiera decidido. Pero para la segunda, pareció haber ganado confianza, pues ya la había dicho, y su voz se elevó. La escena cambia simultáneamente con la segunda frase y su mirada se vuelve notablemente más decidida. El movimiento del cuello y la saliva en la boca al respirar con dificultad están muy bien representados, aumentando aún más el realismo.

Pon a prueba la sincronización de labios y la expresión facial en un estilo artístico estilizado en 2D. Sorprendentemente, incluso con un perfil lateral en 2D, la sincronización de labios, las expresiones faciales y los cambios emocionales del modelo todavía están muy bien representados, y no hay tendencia a convertirse a 3D; es bastante estable. El sonido del sollozo final se combina muy bien con la voz hablada, y también hay sonidos de metal chocando al encontrarse con el robot; la atención al detalle es bastante impresionante.

El modelo actualizado funciona mucho mejor al controlar movimientos complejos de cámara, como probablemente se puede apreciar en los ejemplos anteriores. Ahora veamos algo aún más desafiante.

En primer lugar, está la conocida técnica avanzada de movimiento de cámara: el zoom Hitchcock. Lo que hicimos aquí fue increíblemente absurdo. Un zoom continuo de 12 segundos, rapidísimo, al estilo Hitchcock es algo muy difícil de lograr en la realidad, pero nunca esperamos que lo consiguiera. Las expresiones de los personajes también sufren cambios sutiles, mientras que los efectos de sonido cambian con la velocidad del zoom y el ritmo de la respiración del protagonista, transmitiendo eficazmente las emociones tensas de los personajes.

Se trata de una prueba con un alto riesgo de éxito y las regulaciones para cada área son muy detalladas. Como puede ver, se presenta el contenido requerido por las indicaciones en cada sección y se mantiene una buena coherencia tanto antes como después de ocultar a la persona. El movimiento de la cámara fue muy estable y siguió estrictamente las instrucciones en los giros difíciles y en la parte donde el personaje se seca el sudor después de detenerse. La cámara amplió el rostro al final, lo cual fue particularmente fluido.

Hoy, Volcano Engine lanzó oficialmente Seedance 1.5 pro, el modelo de generación de video de Doubao. A partir de hoy, los usuarios individuales pueden probarlo en Jimeng AI, la aplicación de Doubao y el Centro de Experiencia Volcano Ark; los usuarios empresariales pueden usar la API del modelo en Volcano Engine a partir del 23 de diciembre.

Hilo de 歸藏(guizang.ai) (@op7418)

Información del autor

Contenido del hilo