X (Twitter)

A Tencent acaba de lançar uma versão aprimorada de seu modelo de geração de músicas, o SongBloom-2B, chamada songbloom_full_240s! Agora ele suporta a geração de músicas com até 4 minutos de duração. Eles também lançaram uma estrutura de geração atualizada chamada SongBloom, que, segundo a introdução, é um modelo de difusão autorregressivo. A descrição oficial afirma que ela possui tanto a precisão de um modelo de difusão quanto a escalabilidade de um modelo de linguagem, e sua geração interna se expandirá gradualmente de pequenos fragmentos musicais para peças musicais completas. Este modelo requer a entrada da letra e de um áudio de referência em um formato específico para clonar o estilo da música. O modelo também está publicado no meu espaço pessoal no Hugging Face. Não há espaço para demonstração, então não tenho uma maneira muito prática de gravar uma demonstração para todos. Os interessados podem baixar o modelo e testá-lo; afinal, ele tem apenas 2 bytes e roda em uma CPU. endereço:

Thread de karminski-牙医 (@karminski3)

Informações do autor

Conteúdo da thread