LogoThread Easy
  • Explorer
  • Composer un thread
LogoThread Easy

Votre partenaire tout-en-un pour les threads Twitter

© 2025 Thread Easy All Rights Reserved.

Explorer

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

Gemini Live大更新,谷歌刚刚给Gemini Live加了“人声特效包”,像真人一样表达带节奏、带口音,交互更自然

新版模型能实时识别并控制语速、韵律与口音

可以用它陪练外语、模拟面试、讲带感故事

#GeminiLive #AI语音

Gemini Live大更新,谷歌刚刚给Gemini Live加了“人声特效包”,像真人一样表达带节奏、带口音,交互更自然 新版模型能实时识别并控制语速、韵律与口音 可以用它陪练外语、模拟面试、讲带感故事 #GeminiLive #AI语音

博客:https://t.co/2DDtufcIiK

avatar for AIGCLINK
AIGCLINK
Thu Nov 13 03:52:03
Google DeepMind在Nature上发布了其最新研究,【教AI像人类一样看世界】

让AI不是“只会认图”的机器,而是开始“理解图”的智能体

当前视觉AI应用虽广泛,但其“视觉理解”方式与人类有系统性差异,AI无法像人类一样理解“汽车和飞机都是大型金属交通工具”这种层次概念

研究者通过“找不同”任务比较了人类和AI的视觉理解方式,发现AI更容易被颜色、纹理等表面特征干扰,人类更关注语义层级

于是他们用了三步教AI像人一样思考,将AI的视觉表征调整得更接近人类的认知结构

第一步,基于SigLIP-SO400M,冻结主干网络,在THINGS数据集上训练一个小型适配器,得到“教师模型”

第二步,用教师模型生成一个大规模合成数据集AligNet,模拟人类的视觉判断

第三步,用AligNet训练“学生模型”,使其内部表征更符合人类的语义层次结构

对齐后的模型在模拟人类视觉判断、展现类似人类的“犹豫”不确定性,以及面对新任务时,表现的更稳更准

#VLM

Google DeepMind在Nature上发布了其最新研究,【教AI像人类一样看世界】 让AI不是“只会认图”的机器,而是开始“理解图”的智能体 当前视觉AI应用虽广泛,但其“视觉理解”方式与人类有系统性差异,AI无法像人类一样理解“汽车和飞机都是大型金属交通工具”这种层次概念 研究者通过“找不同”任务比较了人类和AI的视觉理解方式,发现AI更容易被颜色、纹理等表面特征干扰,人类更关注语义层级 于是他们用了三步教AI像人一样思考,将AI的视觉表征调整得更接近人类的认知结构 第一步,基于SigLIP-SO400M,冻结主干网络,在THINGS数据集上训练一个小型适配器,得到“教师模型” 第二步,用教师模型生成一个大规模合成数据集AligNet,模拟人类的视觉判断 第三步,用AligNet训练“学生模型”,使其内部表征更符合人类的语义层次结构 对齐后的模型在模拟人类视觉判断、展现类似人类的“犹豫”不确定性,以及面对新任务时,表现的更稳更准 #VLM

博客:https://t.co/8UDFdmMO4s

avatar for AIGCLINK
AIGCLINK
Thu Nov 13 01:59:22
李飞飞World Labs的生成式多模态世界模型:Marble 刚刚已发布,一张图片/视频/文本提示/3D布局,即生成高保真3D世界

单图、文本、多视角图、短视频、粗糙3D块都能当prompt

生成之后还能二次创作
AI原生笔刷可以局部删改、换材质、换风格、换结构
可以一键扩世界
也可以多个小场景拼接

能导出高斯溅射、三角网格,也可渲染成带精确相机轨道的视频,在视频后处理环节自动添加烟、火焰、流水等动态元素,同时去除画面瑕疵

也就是说,做游戏的能直接拖进Unity/Unreal 当关卡;影视人可导出带相机轨道的视频当预演

#3D生成  #AI3D  #Marble

李飞飞World Labs的生成式多模态世界模型:Marble 刚刚已发布,一张图片/视频/文本提示/3D布局,即生成高保真3D世界 单图、文本、多视角图、短视频、粗糙3D块都能当prompt 生成之后还能二次创作 AI原生笔刷可以局部删改、换材质、换风格、换结构 可以一键扩世界 也可以多个小场景拼接 能导出高斯溅射、三角网格,也可渲染成带精确相机轨道的视频,在视频后处理环节自动添加烟、火焰、流水等动态元素,同时去除画面瑕疵 也就是说,做游戏的能直接拖进Unity/Unreal 当关卡;影视人可导出带相机轨道的视频当预演 #3D生成 #AI3D #Marble

注册地址:https://t.co/A7EzSQVOIT 博客:https://t.co/gYdUPBUvsQ

avatar for AIGCLINK
AIGCLINK
Wed Nov 12 23:33:54
OpenAI刚刚放出了GPT-5.1,主打“更智能更具聊天性”

GPT-5.1 Instant版,引入了自适应推理能力,可根据问题难度决定是否先思考再回答,同时保持快速响应,指令遵循更好

GPT-5.1 Thinking版,快慢自适应,简单问题秒回,复杂问题多花时间,难题答得更深入,简单题等待时间更短了

#GPT51 #OpenAI

OpenAI刚刚放出了GPT-5.1,主打“更智能更具聊天性” GPT-5.1 Instant版,引入了自适应推理能力,可根据问题难度决定是否先思考再回答,同时保持快速响应,指令遵循更好 GPT-5.1 Thinking版,快慢自适应,简单问题秒回,复杂问题多花时间,难题答得更深入,简单题等待时间更短了 #GPT51 #OpenAI

博客:https://t.co/gffeZEQsb8

avatar for AIGCLINK
AIGCLINK
Wed Nov 12 22:59:29
字节最新发了一款编程模型:Doubao-Seed-Code,擅长Agentic编程任务,具备视觉理解能力,256K上下文

TRAE中国版已接入Doubao-Seed-Code,在与TRAE深度结合后,在SWE-Bench Verified上达到78.8%成绩

256K上下文,使其可以处理长代码文件、多模块依赖等等复杂的场景,前端能力突出

它可以参照UI设计稿、截图、手绘草图生成代码,或者可以对生成页面进行视觉比对,自主完成样式修复和Bug修复

价格:
0-32k输入区间,输入1.2元/百万Tokens,输出8元/百万Tokens

32-128k输入区间,输入1.4元/百万Tokens,输出12元/百万Tokens

128-256k输入区间,输入2.8元/百万Tokens,输出16元/百万Tokens

#DoubaoSeedCode #编程模型

字节最新发了一款编程模型:Doubao-Seed-Code,擅长Agentic编程任务,具备视觉理解能力,256K上下文 TRAE中国版已接入Doubao-Seed-Code,在与TRAE深度结合后,在SWE-Bench Verified上达到78.8%成绩 256K上下文,使其可以处理长代码文件、多模块依赖等等复杂的场景,前端能力突出 它可以参照UI设计稿、截图、手绘草图生成代码,或者可以对生成页面进行视觉比对,自主完成样式修复和Bug修复 价格: 0-32k输入区间,输入1.2元/百万Tokens,输出8元/百万Tokens 32-128k输入区间,输入1.4元/百万Tokens,输出12元/百万Tokens 128-256k输入区间,输入2.8元/百万Tokens,输出16元/百万Tokens #DoubaoSeedCode #编程模型

文档:https://t.co/nAdCaTcfKu

avatar for AIGCLINK
AIGCLINK
Wed Nov 12 01:37:52
ElevenLabs最新实时语音转文本模型:Scribe v2 Realtime,150毫秒转录90+种语言

可以用于语音助手、会议记录或者实时应用程序等等

英语、日语等的WER≤5% ,中文普通话>5% ≤10%

#ASR #STT

ElevenLabs最新实时语音转文本模型:Scribe v2 Realtime,150毫秒转录90+种语言 可以用于语音助手、会议记录或者实时应用程序等等 英语、日语等的WER≤5% ,中文普通话>5% ≤10% #ASR #STT

文档:https://t.co/vmFUTyD44Z

avatar for AIGCLINK
AIGCLINK
Tue Nov 11 23:32:16
  • Previous
  • 1
  • 2
  • 3
  • More pages
  • 12
  • 13
  • Next