X (Twitter)

[Recommandation logiciel libre] MLX-Audio Studio : un outil d’interface utilisateur libre conçu spécifiquement pour la génération et le traitement audio. Développé à partir de la bibliothèque MLX-Audio, il est compatible avec les appareils Apple Silicon et permet aux utilisateurs de générer et de transcrire facilement de l’audio en local. Il prend en charge différentes options de traitement audio, notamment MLX-Audio, Transformers et d’autres services tels qu’OpenAI. Fonctions principales : Génération et transcription audio : Fournit des fonctions TTS et STT, permettant aux utilisateurs de générer de l’audio en saisissant du texte via une interface simple, ou de télécharger des fichiers audio pour transcription. • Prise en charge de plusieurs backends : intégration flexible avec différents frameworks ; les utilisateurs peuvent choisir le modèle MLX-Audio local ou d’autres API externes pour implémenter un traitement audio personnalisé. • Conception de l'interface utilisateur : Une interface web moderne compatible avec le mode sombre, incluant la sélection du modèle, le réglage de la vitesse, de la hauteur et du volume, le traitement des textes longs et un lecteur audio. L'interface est intuitive et propose un historique, des paramètres et un accès à l'API. • Évolutivité : Davantage de tâches, telles que le clonage vocal ou l'édition avancée, seront ajoutées ultérieurement afin d'améliorer la polyvalence des applications audio. Examinons les principales caractéristiques de MLX-Audio : Inférence haute efficacité : Il s’exécute nativement sur Apple Silicon à l’aide du framework MLX, offrant une génération et un traitement rapides, et prend en charge la quantification 8 bits pour réduire l’utilisation de la mémoire et améliorer la vitesse. • Prise en charge multilingue : Prend en charge l’anglais américain et l’anglais britannique par défaut, et peut être étendue au japonais et au mandarin via des dépendances optionnelles. • Personnalisation de la voix : Plusieurs préréglages vocaux intégrés (tels que af_heart, af_nova, bf_emma) et prise en charge du réglage de la vitesse (0,5x à 2,0x). • Interface utilisateur et API : Comprend une interface utilisateur Web moderne (avec visualisation audio 3D, téléchargement et lecture de fichiers) et une API REST basée sur FastAPI (compatible avec les interfaces TTS et STT de type OpenAI). • Gestion des fichiers : les fichiers générés sont enregistrés par défaut dans le répertoire ~/.mlx_audio/outputs et peuvent être ouverts directement dans le Finder ou l’Explorateur. • Intégration Swift : Fournit le package mlx-swift-audio pour la synthèse vocale native sur macOS et iOS, prenant en charge la génération de flux et la sortie PCM brute. Parmi les autres fonctionnalités, citons la prise en charge du clonage vocal (via un fichier audio de référence), la génération de blocs audio en temps réel et des options de diffusion et de quantification optionnelles. Adresse open source

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil