Google 正式推出Gemini Live API,基於最新的Gemini 2.5 Flash Native Audio 模型,開發者不再需要費力組裝複雜的語音鏈路,而是可以直接在一個模型中實現聽、看、說、做的高度融合 核心變革:告別「高延遲」拼接,擁抱「原生」即時過去,建立語音對話AI 通常需要拼接三個步驟:STT -> LLM -> TTS。這種流程不僅延遲高,對話顯得機械化、生硬。 Gemini Live API 的突破在於: · 原生音頻處理:Gemini 2.5 Flash 模型可以直接「聽」懂原始音頻,並直接產生音頻回應。 · 極低延遲:省去了中間轉換環節,透過WebSocket 單一連線實現毫秒級的即時回應。 · 多模態融合:模型不僅能聽,還能同時處理視訊串流、文字和視覺訊息。例如,使用者可以一邊展示視訊畫面,一邊與AI 進行語音討論。 五大關鍵「擬人化」能力這篇Blog 強調了該API 如何讓AI 更像一個真實的人,而不僅僅是一個問答機器: · 情緒共鳴:模型能聽出說話者的語氣、語速和情緒(如憤怒、沮喪),並自動調整自己的語調來安撫使用者或表現出同理心。 · 智能打斷與聆聽:超越了簡單的語音偵測。 AI 能判斷什麼時候該回應,什麼時候該保持沉默,甚至能處理用戶的“插話”,讓對話節奏更自然。 · 工具呼叫:在語音對話中,AI 可以即時調用外部工具或使用Google 搜尋來獲取最新資訊。 · 持續記憶:在多模態的交互作用中保持上下文連貫。 · 企業級穩定性:作為GA 版本,它提供了生產環境所需的高可用性和多區域支援。 開發落地:從模板到實戰為了讓開發者快速上手,Google 提供了兩種Quickstart 模板和三個代表性的應用情境Demo: 開發模板: · Vanilla JS 範本:零依賴,適合用來理解底層的WebSocket 協定和媒體串流處理。 · React 範本:模組化設計,包含音訊處理工作流程,適合建構複雜的企業級應用。 三大實戰場景: 1. 即時商業顧問: 亮點:由「靜默模式」和「發言模式」組成。 AI 可以像副駕駛一樣旁聽會議,只在螢幕上推送圖表資訊(不打擾),或在需要時透過語音介入提供建議。 2. 多模態客服: 亮點:用戶可以直接透過攝影機展示有問題的商品(如退貨),AI 結合視覺判斷和語音情緒識別,直接呼叫後台工具處理退款。 3. 遊戲語音助理: 亮點:AI 即時觀看玩家的遊戲畫面,提供攻略。使用者還可以切換AI 的「人設」(如智慧巫師或科幻機器人),不僅是指揮官,更是遊戲夥伴。 谷歌官方博客
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
