LogoThread Easy
  • Explorar
  • Componer hilo
LogoThread Easy

Tu compañero integral para hilos de Twitter

© 2025 Thread Easy All Rights Reserved.

Explorar

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

every high-alpha home purchase involves buying products "exclusively for industrial or commercial use"

every high-alpha home purchase involves buying products "exclusively for industrial or commercial use"

they are trying to keep us down. do you know how hard it is to find good 20K lumen 95 CRI lights

avatar for near
near
Sat Dec 13 00:40:40
Grinds my gears when people call themselves „overachievers.“

This only ever works with someone else’s expectations. It’s always external. 

No one who followed their own dreams ever overachieved.

Grinds my gears when people call themselves „overachievers.“ This only ever works with someone else’s expectations. It’s always external. No one who followed their own dreams ever overachieved.

Building https://t.co/od97B0HVrk and https://t.co/666FnyVVE0 in Public. Raising all the boats with kindness. 🎙️ https://t.co/6w69DZmi8H · ✍️ https://t.co/lpnor5rsTW

avatar for Arvid Kahl
Arvid Kahl
Sat Dec 13 00:39:23
Google 正式推出 Gemini Live API,基于最新的 Gemini 2.5 Flash Native Audio 模型,开发者不再需要费力组装复杂的语音链路,而是可以直接在一个模型中实现听、看、说、做的高度融合

核心变革:告别“高延迟”拼接,拥抱“原生”实时
过去,构建一个语音对话 AI 通常需要拼接三个步骤:STT -> LLM -> TTS。这种流程不仅延迟高,而且对话显得机械、生硬。

Gemini Live API 的突破在于:
· 原生音频处理:Gemini 2.5 Flash 模型可以直接“听”懂原始音频,并直接生成音频回应。
· 极低延迟:省去了中间转换环节,通过 WebSocket 单一连接实现毫秒级的实时响应。
· 多模态融合:模型不仅能听,还能同时处理视频流、文本和视觉信息。例如,用户可以一边展示视频画面,一边与 AI 进行语音讨论。

五大关键“拟人化”能力
这篇 Blog 强调了该 API 如何让 AI 更像一个真实的人,而不仅仅是一个问答机器:
· 情感共鸣:模型能听出说话人的语气、语速和情绪(如愤怒、沮丧),并自动调整自己的语调来安抚用户或表现出同理心。
· 智能打断与倾听:超越了简单的语音检测。AI 能判断什么时候该回应,什么时候该保持沉默,甚至能处理用户的“插话”,让对话节奏更自然。
· 工具调用:在语音对话中,AI 可以实时调用外部工具或使用 Google 搜索来获取最新信息。
· 持续记忆:在多模态的交互中保持上下文连贯。
· 企业级稳定性:作为 GA 版本,它提供了生产环境所需的高可用性和多区域支持。

开发落地:从模板到实战
为了让开发者快速上手,Google 提供了两种 Quickstart 模板和三个具有代表性的应用场景 Demo:

开发模板:
· Vanilla JS 模板:零依赖,适合理解底层的 WebSocket 协议和媒体流处理。
· React 模板:模块化设计,包含音频处理工作流,适合构建复杂的企业级应用。

三大实战场景:
1. 实时商业顾问:
  亮点:由“静默模式”和“发言模式”组成。AI 可以像副驾驶一样旁听会议,只在屏幕上推送图表信息(不打扰),或者在需要时通过语音介入提供建议。
2. 多模态客服:
  亮点:用户可以直接通过摄像头展示有问题的商品(如退货),AI 结合视觉判断和语音情感识别,直接调用后台工具处理退款。
3. 游戏语音助手:
亮点:AI 实时观看玩家的游戏画面,提供攻略。用户还可以切换 AI 的“人设”(如智慧巫师或科幻机器人),不仅是指挥官,更是游戏伙伴。

谷歌官方博客

Google 正式推出 Gemini Live API,基于最新的 Gemini 2.5 Flash Native Audio 模型,开发者不再需要费力组装复杂的语音链路,而是可以直接在一个模型中实现听、看、说、做的高度融合 核心变革:告别“高延迟”拼接,拥抱“原生”实时 过去,构建一个语音对话 AI 通常需要拼接三个步骤:STT -> LLM -> TTS。这种流程不仅延迟高,而且对话显得机械、生硬。 Gemini Live API 的突破在于: · 原生音频处理:Gemini 2.5 Flash 模型可以直接“听”懂原始音频,并直接生成音频回应。 · 极低延迟:省去了中间转换环节,通过 WebSocket 单一连接实现毫秒级的实时响应。 · 多模态融合:模型不仅能听,还能同时处理视频流、文本和视觉信息。例如,用户可以一边展示视频画面,一边与 AI 进行语音讨论。 五大关键“拟人化”能力 这篇 Blog 强调了该 API 如何让 AI 更像一个真实的人,而不仅仅是一个问答机器: · 情感共鸣:模型能听出说话人的语气、语速和情绪(如愤怒、沮丧),并自动调整自己的语调来安抚用户或表现出同理心。 · 智能打断与倾听:超越了简单的语音检测。AI 能判断什么时候该回应,什么时候该保持沉默,甚至能处理用户的“插话”,让对话节奏更自然。 · 工具调用:在语音对话中,AI 可以实时调用外部工具或使用 Google 搜索来获取最新信息。 · 持续记忆:在多模态的交互中保持上下文连贯。 · 企业级稳定性:作为 GA 版本,它提供了生产环境所需的高可用性和多区域支持。 开发落地:从模板到实战 为了让开发者快速上手,Google 提供了两种 Quickstart 模板和三个具有代表性的应用场景 Demo: 开发模板: · Vanilla JS 模板:零依赖,适合理解底层的 WebSocket 协议和媒体流处理。 · React 模板:模块化设计,包含音频处理工作流,适合构建复杂的企业级应用。 三大实战场景: 1. 实时商业顾问: 亮点:由“静默模式”和“发言模式”组成。AI 可以像副驾驶一样旁听会议,只在屏幕上推送图表信息(不打扰),或者在需要时通过语音介入提供建议。 2. 多模态客服: 亮点:用户可以直接通过摄像头展示有问题的商品(如退货),AI 结合视觉判断和语音情感识别,直接调用后台工具处理退款。 3. 游戏语音助手: 亮点:AI 实时观看玩家的游戏画面,提供攻略。用户还可以切换 AI 的“人设”(如智慧巫师或科幻机器人),不仅是指挥官,更是游戏伙伴。 谷歌官方博客

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Sat Dec 13 00:30:26
I only want to read object-level arguments about the light cone from first principles. Don’t come at me with anything orthogonal.

I only want to read object-level arguments about the light cone from first principles. Don’t come at me with anything orthogonal.

Author. Coder. CTO. θηριομάχης. Building: https://t.co/otXT4Wy6WR. Writing: https://t.co/dBPBtyCIHw.

avatar for Jon Stokes
Jon Stokes
Sat Dec 13 00:27:05
Lots of people messaged me about missing the deadline to apply.

So re-opening the application until the end of the weekend!

Link below.

Lots of people messaged me about missing the deadline to apply. So re-opening the application until the end of the weekend! Link below.

https://t.co/C86Xm8AE5n

avatar for Dwarkesh Patel
Dwarkesh Patel
Sat Dec 13 00:26:31
RT @Wujizhuzhu: 2025年12月13日,熊老板X用户超过6W。

同期,我的粉丝数只有6000过一点,只有熊老板X用户数的10%。

在此,我立一个Flag,到2026年底(如果我的账号一直平安),我希望账号粉丝数也能达到6W。

希望大家监督!!

如果能够完…

RT @Wujizhuzhu: 2025年12月13日,熊老板X用户超过6W。 同期,我的粉丝数只有6000过一点,只有熊老板X用户数的10%。 在此,我立一个Flag,到2026年底(如果我的账号一直平安),我希望账号粉丝数也能达到6W。 希望大家监督!! 如果能够完…

独立开发者 | 个人IP教练 | 帮助新手在X上完成早期成长| 公众号:PandaTalk8

avatar for Mr Panda
Mr Panda
Sat Dec 13 00:25:19
  • Previous
  • 1
  • More pages
  • 860
  • 861
  • 862
  • More pages
  • 5634
  • Next