StepFun AI lance un modèle d'édition audio de niveau LLM : Step-Audio-EditX Autoriser la modification du discours « comme du texte ». 3 milliards de paramètres (compressés à partir de 130 octets) Il prend en charge le clonage vocal sans enregistrement préalable et l'édition itérative en plusieurs étapes. Langues prises en charge : mandarin, anglais, sichuanais et cantonais. Il permet de modifier l'émotion, le ton, le style et même les éléments paralinguistiques de l'audio grâce à des commandes en langage naturel. Step-Audio-EditX surpasse les modèles commerciaux à code source fermé Minimax et Doubao sur de multiples points. Les résultats expérimentaux montrent que : Son naturel, son expression émotionnelle et la constance de son timbre sont proches, voire supérieurs, à ceux des systèmes commerciaux à source fermée. Leur capacité à maîtriser leurs émotions et leur style est parmi les meilleures du secteur.
StepFun AI affirme que ce modèle représente un paradigme totalement nouveau pour le montage audio : Au liexiaohu.ai/c/a066c4/stepf…partir stepaudiollm.github.io/step-audio-edi…me d'onde, il utilise des jetons discrets pour représenter la parole, à l'instar d'un modèle de langage. L'audio peut être modifié selon de multiples dimensions, telles que l'émotion, le style et le débit de parole, grâce à des commandes en langage naturel. Détails : https://t.co/0vTbSAZVIq Adresse du projet : https://t.co/1Q4sE34jXi GitHub : https://t.co/fyvQjCcKhW Expérience en ligne :
