X (Twitter)

想要在專案中實現即時語音轉文字，通常只能選雲端API，不僅貴還有考慮資料隱私問題。而本地部署Whisper 雖然免費，但處理串流音訊時的延遲和斷句體驗往往不盡人意。偶然在GitHub 發現WhisperLiveKit 這個開源項目，提供了一套完整的本地即時語音辨識與翻譯解決方案，專門優化了串流的延遲問題。不僅支援高精準度的即時轉寫，還內建了說話者辨識（Diarization）和語音活動偵測（VAD），能精準區分誰在說話以及何時停頓。 GitHub：https://t.co/SVCcyqdqhG 後端極為靈活，支援接入faster-whisper 或專為Apple Silicon 優化的mlx-whisper 引擎，甚至整合了NLLW 模型實現200 種語言的即時翻譯。專案包含現成的Python 服務端和Web 前端範例，支援Docker 部署。如果想搭建一個隱私安全、低延遲的會議記錄或同傳系統，這是一個非常紮實的基礎設施。

來自 GitHubDaily（@GitHub_Daily）的推文串

作者資訊

推文串內容