最近在玩一個開源的Voice Agent 框架,TEN Framework:hgithub.com/TEN-framework/…,它有點像“實時語音/ 多模態Agent 的操作系統”:在一套統一的實時流框架裡,把STT、LLM、TTS、VAD、AAIvatar 這些模組做成組合,可以把STT、LLM、TTS、VAD、AAIvatar 這些模組做成組合,就是可以把積木和可插拔的結構即時對話相關的低延遲、多模態和跨端部署這些工程問題打包解決掉。 花10min 在本地部署跑起來,還沒有替換其他的東西,實際體驗下它的實時語音問答挺絲滑:可以打斷、響應夠快,延遲大概在1s 左右。像是Memory、RAG 這類常見能力也都已經幫你接好了,基於這些再往上可以擴展到AI 情感陪伴、AI 口語陪練、電話AI 客服、智慧語音硬體這些場景。我用官方案例測試了一下,效果還不錯,對「真即時」語音Agent 有興趣的同學可以看看這個開源框架。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。