X (Twitter)

最近在玩一個開源的Voice Agent 框架，TEN Framework：hgithub.com/TEN-framework/…，它有點像“實時語音/ 多模態Agent 的操作系統”：在一套統一的實時流框架裡，把STT、LLM、TTS、VAD、AAIvatar 這些模組做成組合，可以把STT、LLM、TTS、VAD、AAIvatar 這些模組做成組合，就是可以把積木和可插拔的結構即時對話相關的低延遲、多模態和跨端部署這些工程問題打包解決掉。花10min 在本地部署跑起來，還沒有替換其他的東西，實際體驗下它的實時語音問答挺絲滑：可以打斷、響應夠快，延遲大概在1s 左右。像是Memory、RAG 這類常見能力也都已經幫你接好了，基於這些再往上可以擴展到AI 情感陪伴、AI 口語陪練、電話AI 客服、智慧語音硬體這些場景。我用官方案例測試了一下，效果還不錯，對「真即時」語音Agent 有興趣的同學可以看看這個開源框架。

来自 Tw93（@HiTw93）的推文线程

作者信息

线程正文