[Recomendação de código aberto] MLX-Audio Studio: Uma ferramenta de interface de usuário de código aberto projetada especificamente para geração e processamento de áudio. Desenvolvida com base na biblioteca MLX-Audio, ela é compatível com dispositivos Apple Silicon, permitindo que os usuários gerem e transcrevam áudio localmente com facilidade. Ela suporta diversas opções de backend, incluindo MLX-Audio, Transformers ou outros serviços como o OpenAI. Funções principais: Geração e transcrição de áudio: Oferece funções de TTS (Text-to-Speech) e STT (Single-to-Talk), permitindo que os usuários gerem áudio inserindo texto por meio de uma interface simples ou carreguem arquivos de áudio para transcrição. • Suporte a múltiplos backends: Integração flexível com diferentes frameworks; os usuários podem escolher o modelo local MLX-Audio ou outras APIs externas para implementar processamento de áudio personalizado. • Design da interface do usuário: Uma interface web moderna com suporte ao modo escuro, incluindo seleção de modelo, ajuste de velocidade/tom/volume, processamento de textos longos e um reprodutor de áudio. A interface é intuitiva, incluindo histórico, configurações e acesso à API. • Escalabilidade: Mais tarefas, como clonagem de voz ou edição avançada, serão adicionadas no futuro para aumentar a versatilidade dos aplicativos de áudio. Vamos dar uma olhada nos principais recursos do MLX-Audio: Inferência de alta eficiência: Ele é executado nativamente no Apple Silicon usando a estrutura MLX, proporcionando geração e processamento rápidos, e suporta quantização de 8 bits para reduzir o uso de memória e melhorar a velocidade. • Suporte multilíngue: Suporta inglês americano e inglês britânico por padrão, e pode ser estendido para japonês e mandarim por meio de dependências opcionais. • Personalização de voz: Inclui várias predefinições de voz (como af_heart, af_nova, bf_emma) e suporta ajuste de velocidade (0,5x a 2,0x). • Interface do usuário e API: Inclui uma interface web moderna (com visualização de áudio 3D, upload e reprodução de arquivos) e uma API REST baseada em FastAPI (compatível com interfaces TTS e STT no estilo OpenAI). • Gerenciamento de arquivos: Os arquivos gerados são salvos no diretório ~/.mlx_audio/outputs por padrão e podem ser abertos diretamente no Finder ou no Explorador de Arquivos. • Integração com Swift: Fornece o pacote mlx-swift-audio para TTS nativo no macOS e iOS, com suporte para geração de streaming e saída PCM bruta. Outras funcionalidades incluem suporte para clonagem de voz (via áudio de referência), geração de blocos de áudio em tempo real e opções opcionais de streaming e quantização. Endereço de código aberto
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
![[Recomendação de código aberto] MLX-Audio Studio: Uma ferramenta de interface de usuário de código aberto projetada espe](https://pbs.twimg.com/media/G5NDzALbIAElcQB.jpg)