Keep on to blur preview images; turn off to show them clearly

💡 挖掘开源的价值 🧑🏻💻 坚持分享 GitHub 上高质量、有趣、实用的教程、AI工具、前沿 AI 技术 🧐 A list cool, interesting projects of GitHub. ✏️ 公众号:GitHubDaily


Professor of computer science at UW and author of '2040' and 'The Master Algorithm'. Into machine learning, AI, and anything that makes me curious.

![[开源推荐] MLX-Audio Studio: 开源 UI 工具,专为音频生成和处理设计。基于 MLX-Audio 库开发,支持 Apple Silicon 设备,允许用户在本地轻松生成和转录音频,支持多种后端选项,包括 MLX-Audio、Transformers 或其他如 OpenAI 的服务。
核心功能
· 音频生成与转录:提供 TTS 和 STT 功能,用户可以通过简单界面输入文本生成音频,或上传音频文件进行转录。
· 多后端支持:灵活集成不同框架,用户可选择本地 MLX-Audio 模型或其他外部 API,实现自定义音频处理。
· 用户界面设计:现代化的 Web 界面,支持暗黑模式,包含模型选择、速度/音调/音量调节、长文本处理和音频播放器。界面直观,包括历史记录、设置和 API 访问入口。
· 扩展性:未来将添加更多任务,如语音克隆或高级编辑,增强音频应用的多样性。
再看看 MLX-Audio 核心功能
· 高效推理:利用 MLX 框架在 Apple Silicon 上原生运行,提供快速生成和处理,支持 8 位量化以减少内存占用和提升速度。
· 多语言支持:默认支持美式英语和英式英语,可通过可选依赖扩展到日语和普通话。
· 语音定制:内置多种语音预设(如 af_heart、af_nova、bf_emma),并支持速度调节(0.5x 到 2.0x)。
· 用户界面与 API:包括现代 Web UI(带 3D 音频可视化、文件上传和回放),以及基于 FastAPI 的 REST API(兼容 OpenAI 风格的 TTS 和 STT 接口)。
· 文件管理:生成的文件默认保存到 ~/.mlx_audio/outputs 目录,支持直接在 Finder 或 Explorer 中打开。
· Swift 集成:提供 mlx-swift-audio 包,用于 macOS 和 iOS 上的原生 TTS,支持流式生成和原始 PCM 输出。
· 其他特性:支持语音克隆(通过参考音频)、实时音频块生成,以及可选的流式处理和量化选项。
开源地址 [开源推荐] MLX-Audio Studio: 开源 UI 工具,专为音频生成和处理设计。基于 MLX-Audio 库开发,支持 Apple Silicon 设备,允许用户在本地轻松生成和转录音频,支持多种后端选项,包括 MLX-Audio、Transformers 或其他如 OpenAI 的服务。
核心功能
· 音频生成与转录:提供 TTS 和 STT 功能,用户可以通过简单界面输入文本生成音频,或上传音频文件进行转录。
· 多后端支持:灵活集成不同框架,用户可选择本地 MLX-Audio 模型或其他外部 API,实现自定义音频处理。
· 用户界面设计:现代化的 Web 界面,支持暗黑模式,包含模型选择、速度/音调/音量调节、长文本处理和音频播放器。界面直观,包括历史记录、设置和 API 访问入口。
· 扩展性:未来将添加更多任务,如语音克隆或高级编辑,增强音频应用的多样性。
再看看 MLX-Audio 核心功能
· 高效推理:利用 MLX 框架在 Apple Silicon 上原生运行,提供快速生成和处理,支持 8 位量化以减少内存占用和提升速度。
· 多语言支持:默认支持美式英语和英式英语,可通过可选依赖扩展到日语和普通话。
· 语音定制:内置多种语音预设(如 af_heart、af_nova、bf_emma),并支持速度调节(0.5x 到 2.0x)。
· 用户界面与 API:包括现代 Web UI(带 3D 音频可视化、文件上传和回放),以及基于 FastAPI 的 REST API(兼容 OpenAI 风格的 TTS 和 STT 接口)。
· 文件管理:生成的文件默认保存到 ~/.mlx_audio/outputs 目录,支持直接在 Finder 或 Explorer 中打开。
· Swift 集成:提供 mlx-swift-audio 包,用于 macOS 和 iOS 上的原生 TTS,支持流式生成和原始 PCM 输出。
· 其他特性:支持语音克隆(通过参考音频)、实时音频块生成,以及可选的流式处理和量化选项。
开源地址](/_next/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG5NDzALbIAElcQB.jpg&w=3840&q=75)
专注 - Context Engineering, AI(Coding)Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴 🔗 信息卡提示词 🔽


Building https://t.co/od97B0HVrk and https://t.co/666FnyVVE0 in Public. Raising all the boats with kindness. 🎙️ https://t.co/6w69DZmi8H · ✍️ https://t.co/lpnor5rsTW


Building @SakanaAILabs 🧠

discuss: https://t.co/xvZKxg8X7g
