想要在專案中實現即時語音轉文字,通常只能選雲端API,不僅貴還有考慮資料隱私問題。 而本地部署Whisper 雖然免費,但處理串流音訊時的延遲和斷句體驗往往不盡人意。 偶然在GitHub 發現WhisperLiveKit 這個開源項目,提供了一套完整的本地即時語音辨識與翻譯解決方案,專門優化了串流的延遲問題。 不僅支援高精準度的即時轉寫,還內建了說話者辨識(Diarization)和語音活動偵測(VAD),能精準區分誰在說話以及何時停頓。 GitHub:https://t.co/SVCcyqdqhG 後端極為靈活,支援接入faster-whisper 或專為Apple Silicon 優化的mlx-whisper 引擎,甚至整合了NLLW 模型實現200 種語言的即時翻譯。 專案包含現成的Python 服務端和Web 前端範例,支援Docker 部署。如果想搭建一個隱私安全、低延遲的會議記錄或同傳系統,這是一個非常紮實的基礎設施。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
