X (Twitter)

Google 正式推出Gemini Live API，基於最新的Gemini 2.5 Flash Native Audio 模型，開發者不再需要費力組裝複雜的語音鏈路，而是可以直接在一個模型中實現聽、看、說、做的高度融合核心變革：告別「高延遲」拼接，擁抱「原生」即時過去，建立語音對話AI 通常需要拼接三個步驟：STT -> LLM -> TTS。這種流程不僅延遲高，對話顯得機械化、生硬。 Gemini Live API 的突破在於： · 原生音頻處理：Gemini 2.5 Flash 模型可以直接「聽」懂原始音頻，並直接產生音頻回應。 · 極低延遲：省去了中間轉換環節，透過WebSocket 單一連線實現毫秒級的即時回應。 · 多模態融合：模型不僅能聽，還能同時處理視訊串流、文字和視覺訊息。例如，使用者可以一邊展示視訊畫面，一邊與AI 進行語音討論。五大關鍵「擬人化」能力這篇Blog 強調了該API 如何讓AI 更像一個真實的人，而不僅僅是一個問答機器： · 情緒共鳴：模型能聽出說話者的語氣、語速和情緒（如憤怒、沮喪），並自動調整自己的語調來安撫使用者或表現出同理心。 · 智能打斷與聆聽：超越了簡單的語音偵測。 AI 能判斷什麼時候該回應，什麼時候該保持沉默，甚至能處理用戶的“插話”，讓對話節奏更自然。 · 工具呼叫：在語音對話中，AI 可以即時調用外部工具或使用Google 搜尋來獲取最新資訊。 · 持續記憶：在多模態的交互作用中保持上下文連貫。 · 企業級穩定性：作為GA 版本，它提供了生產環境所需的高可用性和多區域支援。開發落地：從模板到實戰為了讓開發者快速上手，Google 提供了兩種Quickstart 模板和三個代表性的應用情境Demo：開發模板： · Vanilla JS 範本：零依賴，適合用來理解底層的WebSocket 協定和媒體串流處理。 · React 範本：模組化設計，包含音訊處理工作流程，適合建構複雜的企業級應用。三大實戰場景： 1. 即時商業顧問：亮點：由「靜默模式」和「發言模式」組成。 AI 可以像副駕駛一樣旁聽會議，只在螢幕上推送圖表資訊（不打擾），或在需要時透過語音介入提供建議。 2. 多模態客服：亮點：用戶可以直接透過攝影機展示有問題的商品（如退貨），AI 結合視覺判斷和語音情緒識別，直接呼叫後台工具處理退款。 3. 遊戲語音助理：亮點：AI 即時觀看玩家的遊戲畫面，提供攻略。使用者還可以切換AI 的「人設」（如智慧巫師或科幻機器人），不僅是指揮官，更是遊戲夥伴。谷歌官方博客

來自 meng shao（@shao__meng）的推文串

作者資訊

推文串內容