开启时会模糊预览图,关闭后正常显示

Co-founder & CEO @HuggingFace 🤗, the open and collaborative platform for AI builders

一、多图融合 我这里使用了一张写实的背景和2D动画的人物,组合出来的视频不仅都能保持各自的风格,还能很好的融合在一起,整个画面都很合理,所有元素出现的位置都对,人物动作也很自然。 (2/13)


We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1



![[开源推荐] Smart Turn v3.1: 针对语音对话中“轮次检测”的重要更新,通过引入真实人类语音数据而非仅仅依赖合成语音,大幅提升模型判断“用户是否说完话”的准确性,让 AI 的对话反应更加自然 @trydaily
🚀 核心亮点:准确率显著提升
· 告别纯合成数据:v3.1 最大的突破在于引入了由合作伙伴(Liva AI, Midcentury, MundoAI)提供的真实人类语音样本(特别是英语和西班牙语)。
· 数据对比:相比 v3.0,新版本在英语环境下的准确率从 88.3% 飙升至约 95%,西班牙语也提升至 90% 以上。
· 解决痛点:以前依赖 TTS 合成数据训练,缺乏人类说话时的自然停顿和细微语气。新数据让模型能更精准地识别“真停顿”与“假停顿”。
🛠️ 技术细节与灵活性
本次更新提供了两个模型版本,以适应不同的硬件需求:
· CPU 版(8MB,Int8 量化):体积小、速度快,适合大多数边缘计算或普通服务器,推理速度极快(低至 12ms)。
· GPU 版(32MB,未量化):体积稍大,但在 GPU 上运行效率更高,且准确率比 CPU 版再高出约 1%。
🔄 极简升级体验
· 无缝替换:v3.1 保持了与 v3.0 相同的架构。如果你已经是用户,只需替换 ONNX 模型文件,无需修改推理代码。
· 生态集成:新模型将直接集成到下一版 Pipecat 框架中,开发者几乎可以“零代码”享受到性能提升。
📊 开放与开源
不仅开源了模型权重,还在 HuggingFace 上公开了用于训练和测试的新数据集(smart-turn-data-v3.1),方便社区进一步研究或微调。
阅读原文 [开源推荐] Smart Turn v3.1: 针对语音对话中“轮次检测”的重要更新,通过引入真实人类语音数据而非仅仅依赖合成语音,大幅提升模型判断“用户是否说完话”的准确性,让 AI 的对话反应更加自然 @trydaily
🚀 核心亮点:准确率显著提升
· 告别纯合成数据:v3.1 最大的突破在于引入了由合作伙伴(Liva AI, Midcentury, MundoAI)提供的真实人类语音样本(特别是英语和西班牙语)。
· 数据对比:相比 v3.0,新版本在英语环境下的准确率从 88.3% 飙升至约 95%,西班牙语也提升至 90% 以上。
· 解决痛点:以前依赖 TTS 合成数据训练,缺乏人类说话时的自然停顿和细微语气。新数据让模型能更精准地识别“真停顿”与“假停顿”。
🛠️ 技术细节与灵活性
本次更新提供了两个模型版本,以适应不同的硬件需求:
· CPU 版(8MB,Int8 量化):体积小、速度快,适合大多数边缘计算或普通服务器,推理速度极快(低至 12ms)。
· GPU 版(32MB,未量化):体积稍大,但在 GPU 上运行效率更高,且准确率比 CPU 版再高出约 1%。
🔄 极简升级体验
· 无缝替换:v3.1 保持了与 v3.0 相同的架构。如果你已经是用户,只需替换 ONNX 模型文件,无需修改推理代码。
· 生态集成:新模型将直接集成到下一版 Pipecat 框架中,开发者几乎可以“零代码”享受到性能提升。
📊 开放与开源
不仅开源了模型权重,还在 HuggingFace 上公开了用于训练和测试的新数据集(smart-turn-data-v3.1),方便社区进一步研究或微调。
阅读原文](/_next/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG7SQwL6b0AECp4J.jpg&w=3840&q=75)
邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴


Co-founder & Chief Scientist @yutori_ai. Prev: Senior Director leading FAIR Embodied AI @MetaAI and Professor @GeorgiaTech.
