X (Twitter)

Google發布全新的Gemini 2.5 Flash Native Audio 模型用於驅動各種即時語音應用「Native Audio」指的是模型能直接產生自然語音輸出，而不是先生成文字再用語音合成。它不僅“懂你說的內容”，還“能立刻用人類語音回答”，語調、節奏、停頓都更自然。三大核心能力全面增強： 1️⃣ 更聰明的“函數呼叫” Gemini 現在能在語音對話中主動呼叫外部資訊來源，例如：呼叫天氣API；查詢資料庫；取得即時新聞或股票資訊。它不只是“回答”，而是能在“對話過程中”判斷什麼時候要查資料、什麼時候要繼續對話，並且能“邊查邊說”，保持語音流暢。

2️⃣ 更強的指令理解 Gemini 2.5 Flash Native Audio 在理解複雜口頭指令方面更精準。 Google 測試數據顯示：指令遵從率從84% 提升到90%；輸出內容的完整性與準確性顯著提高。 3️⃣ 對話流暢度升級 Gemini 2.5 Flash Native Audio 能記住多輪對話上下文，語音銜接更自然。

Gemini 2.5 Flash Native Audio 模型現已在Vertex AI 上全面開放，同時也可在Gemini API（預覽版）中使用。詳細內容：https://t.co/CnBlan3RBh

來自小互（@imxiaohu）的推文串

作者資訊

推文串內容