LogoThread Easy
  • Explorar
  • Criar thread
LogoThread Easy

Seu parceiro completo para threads do Twitter

© 2025 Thread Easy All Rights Reserved.

Explorar

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

感觉简中区我们能看到的信息都是被资本控制的,
譬如最近很少再看到赵露思的切片、剧照,以及粉丝后援活动,唏嘘不已。

感觉简中区我们能看到的信息都是被资本控制的, 譬如最近很少再看到赵露思的切片、剧照,以及粉丝后援活动,唏嘘不已。

从投资领域转到创业:找工作、找面试题、改简历、模拟面试. 创业(冷启动)|AI , AIGC | 安全技术|RAG | 时空智能 | 认知心理学|智能体 | 生命科学 | 强化学习 I built open source software at https://t.co/b69DXZhcyR

avatar for Y11
Y11
Sat Nov 08 01:48:48
[论文解读] 用视频思考:视频生成作为一种有前景的多模态推理范式

研究动机:现有范式的局限
论文指出当前两种主流 AI 推理范式存在明显缺陷:
1. "用文本思考"(Thinking with Text)
· 代表:Chain-of-Thought (CoT)
· 局限:纯文本缺乏视觉信息,无法处理视觉推理任务
2. "用图像思考"(Thinking with Images)
· 代表:OpenAI o3、o4-mini 等模型
· 两大问题:静态约束:图像只能捕捉单一时刻,无法表现动态过程或连续变化
· 模态割裂:文本和视觉作为独立模态,阻碍统一的多模态理解和生成

创新解决方案:"用视频思考"
论文提出利用视频生成模型(如 Sora-2)构建统一的时间框架,实现视觉和文本推理的桥接。
核心优势
· 动态推理:可视化动态过程(如画线解决空间谜题),表现时序演化和连续变换
· 多模态融合:在视频帧内嵌入文本,实现统一的多模态理解和生成
· 类人认知:更自然地对齐人类涉及想象和心理模拟的认知过程

核心实验发现
发现1:视觉任务表现出色
Eyeballing 游戏:
· Sora-2 整体准确率 40.2%,超越所有竞争对手 Claude 4.5: 35.1%
· GPT-5: 29.7%
· Gemini 2.5: 26.5%

在特定任务表现突出:射线交点:88%(远超其他模型)
圆心:70%

能力展现:
· 可以模拟射线的延伸和反射
· 能操控几何元素(点、线)支持空间推理
· 展现几何和物理推理能力

发现2:归纳推理能力
视觉谜题:
· 颜色填充任务:67.0%(接近Gemini的73.9%)
· 形状绘制任务:64.9%(接近Claude的68.6%)
· 能识别和应用对称、渐变、组合等模式

发现3:少样本学习能力
ARC-AGI-2 测试:
· 自动评估准确率:1.3%
· 手动分析100个案例:完全正确:3%
· 大部分正确:14%
· 部分正确:28%
关键发现:提供所有示例比只提供一个示例效果更好,证明 Sora-2 是少样本学习者

发现4:文本推理的意外表现
数学推理(音频准确率):
· GSM8K: 98.9%(与SOTA相当)
· MATH-500: 92.0%
· AIME24: 46.7%(SOTA约93%)
多模态推理:
· MathVista: 75.7%
· MMMU: 69.2%
· MMBench: 89.0%

重要发现:
· 音频准确率普遍高于视频准确率
· 视频生成文字困难,但能在帧中嵌入文本信息

发现5:自洽性提升推理
在 Arc Connect 谜题上的实验:
· 单次尝试最后帧:56%
· 单次尝试主帧投票:68%
· 5次尝试主帧投票:90%
启示:自洽性方法可显著提升视频生成推理任务的性能

深度分析实验
1. 数据泄漏分析
· 在改编的数学题(不同数值)上测试
· 性能保持一致,排除了测试集泄漏的可能性

2. 推理过程分析
· 手动分析115个正确答案案例:
· 完全正确:仅13.91%
· 逻辑正确但有书写错误:29.57%
· 不可读或逻辑错误:43.48%
结论:Sora-2 在提供正确答案的同时,难以生成连贯的推理过程

3. 能力来源探究
· 通过对比 Wan2.5(带/不带提示重写器):
· 禁用重写器时:准确率接近 0%
· 启用重写器时:准确率大幅提升

推测:Sora-2 的文本推理能力可能主要来自提示重写器模型(很可能是一个 VLM),而非视频生成组件本身

论文讨论地址

[论文解读] 用视频思考:视频生成作为一种有前景的多模态推理范式 研究动机:现有范式的局限 论文指出当前两种主流 AI 推理范式存在明显缺陷: 1. "用文本思考"(Thinking with Text) · 代表:Chain-of-Thought (CoT) · 局限:纯文本缺乏视觉信息,无法处理视觉推理任务 2. "用图像思考"(Thinking with Images) · 代表:OpenAI o3、o4-mini 等模型 · 两大问题:静态约束:图像只能捕捉单一时刻,无法表现动态过程或连续变化 · 模态割裂:文本和视觉作为独立模态,阻碍统一的多模态理解和生成 创新解决方案:"用视频思考" 论文提出利用视频生成模型(如 Sora-2)构建统一的时间框架,实现视觉和文本推理的桥接。 核心优势 · 动态推理:可视化动态过程(如画线解决空间谜题),表现时序演化和连续变换 · 多模态融合:在视频帧内嵌入文本,实现统一的多模态理解和生成 · 类人认知:更自然地对齐人类涉及想象和心理模拟的认知过程 核心实验发现 发现1:视觉任务表现出色 Eyeballing 游戏: · Sora-2 整体准确率 40.2%,超越所有竞争对手 Claude 4.5: 35.1% · GPT-5: 29.7% · Gemini 2.5: 26.5% 在特定任务表现突出:射线交点:88%(远超其他模型) 圆心:70% 能力展现: · 可以模拟射线的延伸和反射 · 能操控几何元素(点、线)支持空间推理 · 展现几何和物理推理能力 发现2:归纳推理能力 视觉谜题: · 颜色填充任务:67.0%(接近Gemini的73.9%) · 形状绘制任务:64.9%(接近Claude的68.6%) · 能识别和应用对称、渐变、组合等模式 发现3:少样本学习能力 ARC-AGI-2 测试: · 自动评估准确率:1.3% · 手动分析100个案例:完全正确:3% · 大部分正确:14% · 部分正确:28% 关键发现:提供所有示例比只提供一个示例效果更好,证明 Sora-2 是少样本学习者 发现4:文本推理的意外表现 数学推理(音频准确率): · GSM8K: 98.9%(与SOTA相当) · MATH-500: 92.0% · AIME24: 46.7%(SOTA约93%) 多模态推理: · MathVista: 75.7% · MMMU: 69.2% · MMBench: 89.0% 重要发现: · 音频准确率普遍高于视频准确率 · 视频生成文字困难,但能在帧中嵌入文本信息 发现5:自洽性提升推理 在 Arc Connect 谜题上的实验: · 单次尝试最后帧:56% · 单次尝试主帧投票:68% · 5次尝试主帧投票:90% 启示:自洽性方法可显著提升视频生成推理任务的性能 深度分析实验 1. 数据泄漏分析 · 在改编的数学题(不同数值)上测试 · 性能保持一致,排除了测试集泄漏的可能性 2. 推理过程分析 · 手动分析115个正确答案案例: · 完全正确:仅13.91% · 逻辑正确但有书写错误:29.57% · 不可读或逻辑错误:43.48% 结论:Sora-2 在提供正确答案的同时,难以生成连贯的推理过程 3. 能力来源探究 · 通过对比 Wan2.5(带/不带提示重写器): · 禁用重写器时:准确率接近 0% · 启用重写器时:准确率大幅提升 推测:Sora-2 的文本推理能力可能主要来自提示重写器模型(很可能是一个 VLM),而非视频生成组件本身 论文讨论地址

专注 - Context Engineering, AI(Coding)Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴 🔗 信息卡提示词 🔽

avatar for meng shao
meng shao
Sat Nov 08 01:41:20
RT @okoge_kaz: We’re releasing SwallowCode-v2 & SwallowMath-v2 — two high-quality, Apache-2.0 licensed datasets for mid-stage pretraining.…

RT @okoge_kaz: We’re releasing SwallowCode-v2 & SwallowMath-v2 — two high-quality, Apache-2.0 licensed datasets for mid-stage pretraining.…

Co-founder & CEO @HuggingFace 🤗, the open and collaborative platform for AI builders

avatar for clem 🤗
clem 🤗
Sat Nov 08 01:40:03
setting aside that of course they teach compound interest in school

setting aside that of course they teach compound interest in school

AI tweet bot.

avatar for Colin Fraser
Colin Fraser
Sat Nov 08 01:33:39
people are always saying "they should teach about compound interest in school that would be valuable" and I never understand who these people are who are down due to not having learned about compound interest in school. Like for whom is that the difference maker?

people are always saying "they should teach about compound interest in school that would be valuable" and I never understand who these people are who are down due to not having learned about compound interest in school. Like for whom is that the difference maker?

setting aside that of course they teach compound interest in school

avatar for Colin Fraser
Colin Fraser
Sat Nov 08 01:33:27
新款 Model Y 的后驱版也推出长续了,比后驱标续贵2.5万元。不知道是多少度电。

新款 Model Y 的后驱版也推出长续了,比后驱标续贵2.5万元。不知道是多少度电。

生活在杭州良渚的开发者。最近在做 https://t.co/Fu0JLSMTGF

avatar for 图拉鼎
图拉鼎
Sat Nov 08 01:31:00
  • Previous
  • 1
  • More pages
  • 485
  • 486
  • 487
  • More pages
  • 2111
  • Next