[開源推薦] Smart Turn v3.1: 針對語音對話中「輪次偵測」的重要更新,透過引入真實人類語音資料而非僅依賴合成語音,大幅提升模型判斷「使用者是否說完話」的準確性,讓AI 的對話反應更自然 @trydaily 🚀 核心亮點:準確率顯著提升· 告別純合成數據:v3.1 最大的突破在於引入了由合作夥伴(Liva AI, Midcentury, MundoAI)提供的真實人類語音樣本(特別是英語和西班牙語)。 · 數據比較:相較於v3.0,新版在英語環境下的準確率從88.3% 飆升至約95%,西班牙文也提升至90% 以上。 · 解決痛點:以前依賴TTS 合成資料訓練,缺乏人類說話時的自然停頓和細微語氣。新數據讓模型能更精準地辨識「真停頓」與「假停頓」。 🛠️ 技術細節與靈活性本次更新提供了兩個模型版本,以適應不同的硬體需求: · CPU 版(8MB,Int8 量化):體積小、速度快,適合大多數邊緣運算或一般伺服器,推理速度極快(低至12ms)。 · GPU 版(32MB,未量化):體積稍大,但在GPU 上運作效率更高,且準確率比CPU 版再高出約1%。 🔄 極簡升級體驗· 無縫替換:v3.1 保持了與v3.0 相同的架構。如果你已經是用戶,只需取代ONNX 模型文件,就不需要修改推理程式碼。 · 生態整合:新模型將直接整合到下一版Pipecat 框架中,開發者幾乎可以「零碼」享受到效能提升。 📊 開放與開源不僅開源了模型權重,還在HuggingFace 上公開了用於訓練和測試的新資料集(smart-turn-data-v3.1),方便社區進一步研究或微調。 閱讀原文
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
![[開源推薦] Smart Turn v3.1: 針對語音對話中「輪次偵測」的重要更新,透過引入真實人類語音資料而非僅依賴合成語音,大幅提升模型判斷「使用者是否說完話」的準確性,讓AI 的對話反應更自然 @trydaily
🚀 核心亮點](https://pbs.twimg.com/media/G7SQwL6b0AECp4J.jpg)