Googleは、最新のGemini 2.5 Flash Native AudioモデルをベースとしたGemini Live APIを正式にリリースしました。開発者は複雑な音声処理リンクを苦労して構築する必要がなくなり、単一のモデル内で「聞く」「見る」「話す」「演じる」という高度な統合を直接実現できるようになります。 コア変革:「高遅延」のアセンブリに別れを告げ、「ネイティブ」なリアルタイムコミュニケーションを採用しましょう。音声対話AIの構築には通常、STT -> LLM -> TTSという3つのステップが必要です。このプロセスは遅延が大きいだけでなく、対話が機械的でぎこちなく聞こえてしまいます。 Gemini Live API の画期的な点は、次のとおりです。 • ネイティブ オーディオ処理: Gemini 2.5 Flash モデルは、元のオーディオを直接「聞いて」理解し、オーディオ応答を直接生成できます。 • 極めて低いレイテンシ: 中間の変換ステップを排除し、単一の WebSocket 接続を通じてミリ秒レベルのリアルタイム応答を実現します。 • マルチモーダル融合:このモデルは、音声だけでなく、ビデオストリーム、テキスト、視覚情報を同時に処理できます。例えば、ユーザーはAIと音声会話をしながらビデオ映像を見ることができます。 「人間のような 5 つの主要な機能」と題されたこのブログ投稿では、この API によって AI が単なる質問と回答の機械ではなく、いかにして実際の人間に近づくのかが強調されています。 • 感情的共鳴: モデルは話者の口調、速度、感情 (怒りや不満など) を聞き取り、自動的に独自の口調を調整してユーザーを落ち着かせたり共感を示したりします。 • インテリジェントな割り込みとリスニング:単純な音声検出にとどまりません。AIは、応答するタイミング、沈黙するタイミング、さらにはユーザーの割り込みにも対応し、会話をより自然な流れに導きます。 • ツールの呼び出し: 音声会話中に、AI は外部ツールをリアルタイムで呼び出したり、Google 検索を使用して最新情報を取得したりできます。 • 持続的な記憶:マルチモーダルインタラクションにおける文脈の一貫性を維持する。 • エンタープライズ グレードの安定性: GA バージョンとして、実稼働環境に必要な高可用性とマルチリージョン サポートを提供します。 開発と導入: テンプレートから実際のアプリケーションまで 開発者がすぐに作業を開始できるように、Google は 2 つのクイックスタート テンプレートと 3 つの代表的なアプリケーション シナリオ デモを提供しています。 開発テンプレート: Vanilla JS テンプレート: 依存関係がゼロで、基盤となる WebSocket プロトコルとメディア ストリーミングを理解するのに適しています。 • React テンプレート: 複雑なエンタープライズ アプリケーションの構築に適した、オーディオ処理ワークフローを備えたモジュール設計。 3つの主要な実際的なシナリオ: 1. リアルタイムビジネスアドバイザー: ハイライト:「サイレントモード」と「スピーキングモード」の2つのモードがあります。AIは副操縦士のように会議に耳を傾け、画面にチャート情報のみを表示(視聴者の邪魔にならないように)したり、必要に応じて音声で介入して提案したりすることができます。 2. マルチモーダル顧客サービス: ハイライト:ユーザーはカメラを通して問題のある商品(返品商品など)を直接提示できます。AIは視覚的な判断と音声による感情認識を組み合わせ、バックエンドツールを直接呼び出して返金処理を行います。 3. ゲーム音声アシスタント: ハイライト:AIがプレイヤーのゲームプレイをリアルタイムで監視し、戦略ガイドを提供します。また、AIの「ペルソナ」(賢い魔法使いやSFロボットなど)を切り替えることも可能で、AIは指揮官としてだけでなく、ゲームパートナーとしても活躍します。 Google公式ブログ
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
