Alibaba lança modelo de vídeo Wan 2.6 Lançamento do primeiro recurso de RPG da China Melhorias significativas foram feitas na qualidade da imagem, estabilidade, efeitos sonoros e obediência aos comandos. 1️⃣ Cada vídeo pode ter até 15 segundos de duração. 2️⃣ Suporta nativamente a geração integrada de "vídeo + áudio" (sincronização audiovisual) 3️⃣ Geração de Vídeos de Interpretação de Papéis 4️⃣ Controle de cena + alternância automática entre várias câmeras 5️⃣ Capacidade aprimorada de fotografar grupos mistos de pessoas, objetos e objetos. 6️⃣ Melhoria significativa na capacidade de seguir instruções
O vídeo gerado tem até 15 segundos de duração. Isso aumenta a capacidade de conteúdo espaço-temporal da tela, permitindo uma narrativa mais completa.
Suporta nativamente a geração de "vídeo + áudio" em uma única operação (sincronização audiovisual). Tanto os elementos visuais quanto o áudio são gerados por IA. apoiar: Narração automática, som ambiente, diálogo entre personagens Também permite o carregamento de áudio personalizado para obter alinhamento audiovisual e de sincronização labial.
Permite o carregamento de vídeos de referência de personagens ou papéis. Em seguida, especifique através do prompt: Personagem, estilo de atuação, cena, atmosfera O modelo será concluído automaticamente: A atuação mantém a coerência com a personagem, e as mudanças emocionais dentro da cena são consistentes.
Wan 2.6 adiciona um controle mais explícito sobre aspectos em nível de cena: Suporte em um único vídeo: Alternância automática de perspectivas entre várias tomadas com enquadramentos diferentes. O modelo pode: Mantenha a consistência nos personagens, no estilo e na narrativa.
Geração de drivers de áudio O Wan 2.6 pode gerar vídeos com base em texto e áudio inseridos pelo usuário. E alcançar desempenho multicâmera
O modelo de imagem baseado em texto Wan 2.6 também foi atualizado. Na versão 2.6, a capacidade de gerar imagens a partir de texto também deu um salto qualitativo. Não se trata mais apenas de uma ferramenta para "transformar texto em imagens", mas sim de uma ferramenta que passou a compreender verdadeiramente a semântica e a lógica visual por trás do texto. As imagens são mais precisas, o estilo é mais consistente, os personagens são mais estáveis e a iluminação é mais natural. As imagens geradas se aproximam de artes conceituais profissionais ou storyboards de nível cinematográfico.
Introxiaohu.ai/c/xiaohu-ai/wa…//t.co/tongyi.aliyun.com/wan/ aqui: https://t.co/obNJXzDOdr

