X (Twitter)

Acertou de novo 😌 A Kling AI lança o VIDEO 2.6, um modelo nativo de sincronização audiovisual. Assim como o Veo 3, este modelo pode gerar som diretamente, sem depender mais de dublagem externa ou síntese em pós-produção. incluem: • Diálogos com vários caracteres em chinês e inglês (Pisces) • Efeitos sonoros ambientes (vento, passos, sons de colisão, etc.) • Voz emocional (atmosferas como tensão, relaxamento e mistério) O som e as imagens estão naturalmente sincronizados, com movimentos labiais, ritmo e atmosfera consistentes. Os elementos visuais e o áudio foram gerados por meio de um único processo de inferência usando o mesmo modelo. Por não ser modular nem composta por partes separadas, evita os "movimentos labiais desalinhados e as emoções desconexas" encontrados em vídeos tradicionais de IA. Suporta geração de 1080p em 5 ou 10 segundos. O personagem pode fazer: • Fale de forma mais natural • Emoções e voz consistentes • Expressões faciais mais adequadas ao diálogo Chega de procurar fontes para efeitos sonoros ambientes. O sistema pode identificar automaticamente a imagem: • Efeitos sonoros para diversas cenas, incluindo chuva, ondas e vento; • Passos, batidas na porta e sons de fricção; • Explosões e ruídos mecânicos. O vídeo 2.6 é mais estável que seu antecessor em termos de ação, transições de câmera e ritmo da narrativa. • As transições de cena são mais naturais. • Os personagens demonstram maior consistência em diferentes planos. • As ações são menos propensas a quedas repentinas de quadros.

Thread de 小互 (@imxiaohu)

Informações do autor

Conteúdo da thread