Com o lançamento do Veo3 e do Sora2, a tendência de desenvolvimento dos modelos de IA para vídeo ficou muito clara: fusão de áudio e vídeo. Hoje, os desenvolvedores nacionais finalmente alcançaram o ritmo, com o Volcano Engine lançando oficialmente o Seedance 1.5 pro. Adota uma solução de cogeração de áudio e vídeo líder do setor. Demonstrou um potencial incrível em sincronização audiovisual, interpretação de dialetos, controle de movimento de câmera e expressão narrativa. Este é um conjunto de testes que realizei sobre dialetos e interações entre línguas.
Além das vozes humanas, a taxa de sincronização entre os efeitos sonoros ambientes (SFX) e os elementos visuais também é crucial, simplificando fluxos de trabalho de áudio com IA que antes eram complexos. Isso é especialmente importante em cenários com requisitos de som de alta frequência, como cenas de jogos e efeitos especiais de filmes. Este modelo não só compreende os aspectos visuais e sonoros, como também a terminologia da fotografia profissional, tornando os seus movimentos de câmara mais profissionais e fluidos. As atuações dos personagens também são mais delicadas e realistas. Estes são alguns exemplos de teste; a taxa real de sucesso ao tirar cartas é de 50%.
A principal diferença técnica entre o Seedance 1.5 Pro e seu antecessor é que ele não trata mais o som como um acessório do vídeo. Por meio da arquitetura nativa do MMDit e do treinamento RLHF para cenários conjuntos de áudio e vídeo, ele resolve os problemas dos vídeos de IA anteriores, que eram "bons em qualidade de imagem, mas careciam de expressão, som e sensação cinematográfica", especialmente em dialetos chineses e controle de fotografia profissional, formando uma vantagem competitiva diferenciada. Algumas características do projeto arquitetônico: 1. Baseado na arquitetura MMDIT (Transformador de Difusão Multimodal). Adota um design de ramificação dupla e integra um módulo de junção multimodal. Isso permite uma interação profunda entre os fluxos visuais e auditivos durante o processo de geração, garantindo altíssima sincronização temporal e consistência semântica. 2. RLHF com Feedback de Áudio. Baseado no SFT, um algoritmo de aprendizado por reforço (RLHF) foi desenvolvido especificamente para o contexto audiovisual. Ele utiliza um modelo de recompensa multidimensional para avaliar a qualidade do vídeo, o desempenho estético e a fidelidade do áudio. 3. Pipeline de Inferência. Sua cadeia de inferência inclui: palavra de comando do usuário -> engenharia da palavra de comando -> codificador de texto -> modelo generativo conjunto (DiT) -> refinador de vídeo/áudio -> saída. 4. Critérios de Avaliação: O padrão de avaliação foi aprimorado. Além da qualidade de imagem, foram adicionadas uma nova dimensão de "vivacidade de vídeo" (dividida em duas subdimensões: ação e enquadramento) e quatro dimensões de áudio (conformidade com os comandos, qualidade do som, sincronização audiovisual e expressividade do áudio). Relatório técnico completo disponível em: https://t.co/sc5YoGlMJt
O Seedance 1.5 Pro representa um avanço significativo na geração de vídeo por IA, passando da "era do cinema mudo" para a "era do cinema sonoro". Ele demonstra um potencial notável em sincronização audiovisual, interpretação de dialetos, controle de movimento de câmera e expressão narrativa. Embora ainda haja espaço para melhorias no suporte a certos dialetos (como o mandarim do nordeste da China e o dialeto de Xangai) e na manutenção da estabilidade em cenas complexas (com uma taxa de sucesso de aproximadamente 50%), ele já é capaz de auxiliar criadores na produção de curtas-metragens, demonstrações publicitárias e até mesmo storyboards de filmes. Ponto de acesso: Seedance 1.5 Pro já está oficialmente disponível e pode ser jogado nestes locais: Jimeng AI: No navegador da web, selecione "Geração de vídeo" -> Seleção de modelo: Video 3.5 Pro. Aplicativo Doubao: Digite "Mova a foto" na caixa de diálogo -> Carregar foto -> Selecione o modelo 1.5 Pro (em versão beta). API para desenvolvedores: Na próxima semana, a API de modelos Seedance 1.5 Pro estará disponível no Volcano Engine. Agora você pode experimentar os efeitos dos modelos no Volcano Ark Experience Center e também reservar serviços de modelagem. https://t.co/iogZcW2wZ5