StepFun AI lanza un modelo de edición de audio de nivel LLM: Step-Audio-EditX Permitir editar el discurso "como si fuera texto". 3 mil millones de parámetros (comprimidos desde 130 mil millones) Admite la clonación de voz sin ejemplos y la edición iterativa en múltiples rondas. Idiomas compatibles: mandarín, inglés, sichuanés y cantonés. Permite editar la emoción, el tono, el estilo e incluso las características paralingüísticas del audio mediante comandos de lenguaje natural. Step-Audio-EditX supera a los modelos comerciales de código cerrado Minimax y Doubao en múltiples métricas. Los resultados experimentales muestran que: Su naturalidad, expresión emocional y consistencia tímbrica se acercan o incluso superan a las de los sistemas comerciales de código cerrado. Su capacidad para controlar las emociones y el estilo se encuentra entre las mejores del sector.
StepFun AI afirma que este modelo representa un paradigma completamente nuevo para la edición de audio: Enxiaohu.ai/c/a066c4/stepf…udio a stepaudiollm.github.io/step-audio-edi…rma de onda, utiliza tokens discretos para representar el habla, de forma similar a un modelo de lenguaje. El audio se puede modificar en múltiples dimensiones, como la emoción, el estilo y la velocidad del habla, mediante comandos de lenguaje natural. Detalles: https://t.co/0vTbSAZVIq Dirección del proyecto: https://t.co/1Q4sE34jXi GitHub: https://t.co/fyvQjCcKhW Experiencia en línea:
