X (Twitter)

Primeiro teste do modelo de vídeo Seedance 1.5 Pro por Zangshifu! Desta vez, o sistema suporta reprodução simultânea de áudio e vídeo e, ainda mais surpreendente, também suporta geração de dialetos. Ao mesmo tempo, houve melhorias significativas na expressão emocional e nos movimentos complexos de câmera durante a atuação. Você pode experimentar Volcano Engine, Doubao e JiMeng. Primeiro, dê uma olhada no vídeo de teste do Mestre Zang. Abaixo estão as perguntas e instruções específicas do teste 👇

Se você estiver commp.weixin.qq.com/s/LDYnJi5VvUuM…la construção 🚧, pode ler o artigo completo aqui: https://t.co/L6UdEtrxlC

Primeiro, encontrei um dialeto de Shaanxi que talvez não seja tão dialetal assim. Muitas pessoas que falam mandarim provavelmente conseguirão entendê-lo, mas ele também possui algumas palavras com pronúncias muito peculiares. Geralmente, isso é bastante difícil porque o material é muito próximo do mandarim padrão, e muitas palavras são difíceis de marcar. Só com muito esforço é possível obter um bom resultado. Ao mesmo tempo, escolhi a transmissão ao vivo de uma pessoa comendo macarrão em Shaanxi, que assisto todos os dias, do canal Wensheng Video, para ver como a imagem e o áudio se integram. Comer também influencia a fala, o que pode testar o senso de percepção da modelo em relação à cena. O resultado foi bastante surpreendente. As duas palavras relativamente difíceis, "聊咋咧" e "美滴很", foram pronunciadas corretamente, e a entonação era de fato a do dialeto de Shaanxi. Surpreendentemente, eles seguiram as instruções muito bem, sabendo que deviam dizer uma frase primeiro, depois beber a bebida e, em seguida, dizer outra. Enquanto bebia e conversava, não colocava a garrafa completamente na boca, pois sabia que não conseguiria falar naquele momento. Sabia que devia retirar a garrafa enquanto falava e, em seguida, tomar outro gole antes de falar, o que era muito realista.

Em seguida, veio o dialeto de Sichuan. Escolhi um cenário bastante desafiador e adicionei três personagens de diferentes idades, gêneros e aparências aos prompts, cada um falando um idioma diferente. Sinceramente, as dicas eram um pouco difíceis demais, mas o Seedance 1.5 Pro me surpreendeu bastante. Consegui seguir as dicas muito bem para completar a tarefa sempre que comprava uma carta. Todos falaram com o tom e a entonação apropriados para seus papéis e não misturaram suas vozes. Eles até pronunciaram muito bem a frase única do dialeto de Sichuan "巴适得板" (ba shi de ban). Eu não especifiquei o método de movimento da câmera. Ela automaticamente apontou a câmera para a pessoa que estava falando, girando-a como um guindaste, e também houve um pouco de trepidação por filmagem manual. A câmera também foi posicionada na pessoa que não estava visível na mesa de mahjong, dando a impressão de que ela estava filmando com a câmera na mão. Com o fundo desfocado, todos os outros também estão se exercitando e fazendo suas próprias coisas, e a conversa tem um tom muito natural, tornando este vídeo de 12 segundos excepcionalmente real.

Por fim, temos o cantonês. Aqui, escolhemos uma cena de restaurante com um forte senso de vida cotidiana, ainda usando o Wen Sheng Video. A filmagem ficou excelente. A transição entre as costas do garçom e seu rosto foi suave, e a câmera fez um movimento panorâmico natural para o rosto do homem enquanto ele falava. As palavras-chave também são muito bem seguidas, com atenção aos detalhes em cada palavra-chave e ao tempo de todas as falas de ação. O diálogo me pareceu bastante autêntico, mesmo eu não entendendo cantonês muito bem. Consegui até pronunciar os sons característicos do cantonês. Também aceito sugestões da "polícia cantonesa".

Atualmente, entre os diversos filmes e programas de TV de sucesso gerados por IA, além de imagens de pessoas reais, os vídeos de animais de estimação com IA também representam uma parcela significativa do tráfego. Portanto, é necessário examinar a sincronização dos sons emitidos pelos animais com os movimentos labiais.

Primeiro, temos o mukbang do gato. Mukbang exige altos padrões de efeitos sonoros e expressões faciais. A comida no vídeo deve ter a mesma textura que a imagem. Aqui, o som do gato comendo bolinhos fritos faz com que pareça muito apetitoso. Além disso, o gato capturou perfeitamente a expressão de êxtase semelhante à humana enquanto mastigava, e não sofre do problema do vale da estranheza, o que é bastante impressionante.

Fazer um gato falar a língua humana envolve não apenas o formato da boca, mas também testes de estrutura anatômica. Em muitos vídeos, quando animais falam a língua humana, suas línguas e dentes se tornam semelhantes aos dentes humanos. O Seedance 1.5 Pro faz um bom trabalho nesse aspecto. O modelo emite uma voz infantil e também usamos "..." para representar o ritmo da fala e expressar sonolência. Ao gerar o modelo, diminuímos a velocidade da fala de acordo com o ritmo correspondente.

Já que mencionamos a possibilidade de combinar áudio e vídeo, a capacidade de atuação e a expressão emocional do modelo também são muito importantes. Muitas vezes, as emoções ou a capacidade de atuação estão intimamente ligadas ao áudio; o visual por si só não é suficiente para expressar o efeito desejado.

Esta passagem expressa principalmente uma mistura complexa de medo, repressão e súplica. Os olhos são particularmente expressivos, transmitindo eficazmente as emoções de medo e apreensão. A primeira frase foi dita em voz muito baixa, como se a pessoa ainda não tivesse se decidido. Mas, na segunda frase, ela pareceu ganhar confiança, já que já a havia proferido, e sua voz se tornou mais alta. A cena muda simultaneamente com a segunda frase, e seu olhar torna-se visivelmente mais determinado. O movimento do pescoço e a saliva na boca ao respirar com dificuldade são muito bem retratados, aumentando ainda mais o realismo.

Teste a sincronização labial e a expressão facial em um estilo artístico estilizado 2D. Surpreendentemente, mesmo com um perfil lateral em 2D, a sincronização labial, as expressões faciais e as mudanças emocionais do modelo ainda são muito bem representadas, e não há tendência de conversão para 3D; permanece bastante estável. O som final do choro se mistura muito bem com a voz falada, e também há sons de metal colidindo ao encontrar o robô; a atenção aos detalhes é bastante impressionante.

O modelo atualizado apresenta um desempenho muito melhor no controle de movimentos complexos da câmera, como você provavelmente já deve ter percebido nos exemplos anteriores. Agora, vamos analisar algo ainda mais desafiador.

Primeiro, temos a conhecida técnica avançada de movimento de câmera, o zoom de Hitchcock. O que fizemos aqui foi incrivelmente absurdo. Um zoom contínuo de 12 segundos, extremamente rápido, ao estilo Hitchcock, é algo muito difícil de se conseguir na realidade, mas nunca imaginamos que realmente daríamos certo. As expressões dos personagens também sofrem mudanças sutis, enquanto os efeitos sonoros se alteram com a velocidade do zoom e o ritmo da respiração do protagonista, transmitindo com eficácia as emoções tensas dos personagens.

Este é um teste de longo prazo, e os regulamentos para cada área são muito detalhados. Como você pode ver, o conteúdo exigido pelas instruções em cada seção é apresentado, e uma boa consistência é mantida tanto antes quanto depois da pessoa ser ocultada. O movimento da câmera foi muito estável e seguiu rigorosamente as instruções nas partes de curvas difíceis e na parte em que o personagem enxuga o suor após parar. O zoom no rosto no final foi particularmente suave.

Hoje, a Volcano Engine lançou oficialmente o Seedance 1.5 Pro, o modelo de geração de vídeos para o Doubao. A partir de hoje, usuários individuais podem experimentá-lo no Jimeng AI, no aplicativo Doubao e no Volcano Ark Experience Center; usuários corporativos poderão usar a API do modelo na Volcano Engine a partir de 23 de dezembro.

Thread de 歸藏(guizang.ai) (@op7418)

Informações do autor

Conteúdo da thread