A StepFun AI lança um modelo de edição de áudio de nível LLM: Step-Audio-EditX Permitir que a fala seja editada "como um texto". 3 bilhões de parâmetros (compactados de 130B) Suporta clonagem de fala sem captura de fala (zero-shot) e edição iterativa em múltiplas rodadas. Idiomas suportados: mandarim, inglês, sichuanês e cantonês. Permite editar a emoção, o tom, o estilo e até mesmo as características paralinguísticas do áudio por meio de comandos em linguagem natural. O Step-Audio-EditX supera os modelos comerciais de código fechado Minimax e Doubao em diversas métricas. Os resultados experimentais mostram que: Sua naturalidade, expressão emocional e consistência de timbre são próximas ou até mesmo superiores às de sistemas comerciais de código fechado. Sua capacidade de controlar emoções e estilo está entre as melhores do setor.
A StepFun AI afirma que este modelo representa um paradigma completamente novo para a edição de áudio: Em xiaohu.ai/c/a066c4/stepf…a partistepaudiollm.github.io/step-audio-edi… onda, utiliza tokens discretos para representar a fala, de forma semelhante a um modelo de linguagem. O áudio pode ser modificado em múltiplas dimensões, como emoção, estilo e velocidade da fala, através de comandos em linguagem natural. Detalhes: https://t.co/0vTbSAZVIq Endereço do projeto: https://t.co/1Q4sE34jXi GitHub: https://t.co/fyvQjCcKhW Experiência online:
