Keep on to blur preview images; turn off to show them clearly

从投资领域转到创业:找工作、找面试题、改简历、模拟面试. 创业(冷启动)|AI , AIGC | 安全技术|RAG | 时空智能 | 认知心理学|智能体 | 生命科学 | 强化学习 I built open source software at https://t.co/b69DXZhcyR

![[论文解读] 用视频思考:视频生成作为一种有前景的多模态推理范式
研究动机:现有范式的局限
论文指出当前两种主流 AI 推理范式存在明显缺陷:
1. "用文本思考"(Thinking with Text)
· 代表:Chain-of-Thought (CoT)
· 局限:纯文本缺乏视觉信息,无法处理视觉推理任务
2. "用图像思考"(Thinking with Images)
· 代表:OpenAI o3、o4-mini 等模型
· 两大问题:静态约束:图像只能捕捉单一时刻,无法表现动态过程或连续变化
· 模态割裂:文本和视觉作为独立模态,阻碍统一的多模态理解和生成
创新解决方案:"用视频思考"
论文提出利用视频生成模型(如 Sora-2)构建统一的时间框架,实现视觉和文本推理的桥接。
核心优势
· 动态推理:可视化动态过程(如画线解决空间谜题),表现时序演化和连续变换
· 多模态融合:在视频帧内嵌入文本,实现统一的多模态理解和生成
· 类人认知:更自然地对齐人类涉及想象和心理模拟的认知过程
核心实验发现
发现1:视觉任务表现出色
Eyeballing 游戏:
· Sora-2 整体准确率 40.2%,超越所有竞争对手 Claude 4.5: 35.1%
· GPT-5: 29.7%
· Gemini 2.5: 26.5%
在特定任务表现突出:射线交点:88%(远超其他模型)
圆心:70%
能力展现:
· 可以模拟射线的延伸和反射
· 能操控几何元素(点、线)支持空间推理
· 展现几何和物理推理能力
发现2:归纳推理能力
视觉谜题:
· 颜色填充任务:67.0%(接近Gemini的73.9%)
· 形状绘制任务:64.9%(接近Claude的68.6%)
· 能识别和应用对称、渐变、组合等模式
发现3:少样本学习能力
ARC-AGI-2 测试:
· 自动评估准确率:1.3%
· 手动分析100个案例:完全正确:3%
· 大部分正确:14%
· 部分正确:28%
关键发现:提供所有示例比只提供一个示例效果更好,证明 Sora-2 是少样本学习者
发现4:文本推理的意外表现
数学推理(音频准确率):
· GSM8K: 98.9%(与SOTA相当)
· MATH-500: 92.0%
· AIME24: 46.7%(SOTA约93%)
多模态推理:
· MathVista: 75.7%
· MMMU: 69.2%
· MMBench: 89.0%
重要发现:
· 音频准确率普遍高于视频准确率
· 视频生成文字困难,但能在帧中嵌入文本信息
发现5:自洽性提升推理
在 Arc Connect 谜题上的实验:
· 单次尝试最后帧:56%
· 单次尝试主帧投票:68%
· 5次尝试主帧投票:90%
启示:自洽性方法可显著提升视频生成推理任务的性能
深度分析实验
1. 数据泄漏分析
· 在改编的数学题(不同数值)上测试
· 性能保持一致,排除了测试集泄漏的可能性
2. 推理过程分析
· 手动分析115个正确答案案例:
· 完全正确:仅13.91%
· 逻辑正确但有书写错误:29.57%
· 不可读或逻辑错误:43.48%
结论:Sora-2 在提供正确答案的同时,难以生成连贯的推理过程
3. 能力来源探究
· 通过对比 Wan2.5(带/不带提示重写器):
· 禁用重写器时:准确率接近 0%
· 启用重写器时:准确率大幅提升
推测:Sora-2 的文本推理能力可能主要来自提示重写器模型(很可能是一个 VLM),而非视频生成组件本身
论文讨论地址 [论文解读] 用视频思考:视频生成作为一种有前景的多模态推理范式
研究动机:现有范式的局限
论文指出当前两种主流 AI 推理范式存在明显缺陷:
1. "用文本思考"(Thinking with Text)
· 代表:Chain-of-Thought (CoT)
· 局限:纯文本缺乏视觉信息,无法处理视觉推理任务
2. "用图像思考"(Thinking with Images)
· 代表:OpenAI o3、o4-mini 等模型
· 两大问题:静态约束:图像只能捕捉单一时刻,无法表现动态过程或连续变化
· 模态割裂:文本和视觉作为独立模态,阻碍统一的多模态理解和生成
创新解决方案:"用视频思考"
论文提出利用视频生成模型(如 Sora-2)构建统一的时间框架,实现视觉和文本推理的桥接。
核心优势
· 动态推理:可视化动态过程(如画线解决空间谜题),表现时序演化和连续变换
· 多模态融合:在视频帧内嵌入文本,实现统一的多模态理解和生成
· 类人认知:更自然地对齐人类涉及想象和心理模拟的认知过程
核心实验发现
发现1:视觉任务表现出色
Eyeballing 游戏:
· Sora-2 整体准确率 40.2%,超越所有竞争对手 Claude 4.5: 35.1%
· GPT-5: 29.7%
· Gemini 2.5: 26.5%
在特定任务表现突出:射线交点:88%(远超其他模型)
圆心:70%
能力展现:
· 可以模拟射线的延伸和反射
· 能操控几何元素(点、线)支持空间推理
· 展现几何和物理推理能力
发现2:归纳推理能力
视觉谜题:
· 颜色填充任务:67.0%(接近Gemini的73.9%)
· 形状绘制任务:64.9%(接近Claude的68.6%)
· 能识别和应用对称、渐变、组合等模式
发现3:少样本学习能力
ARC-AGI-2 测试:
· 自动评估准确率:1.3%
· 手动分析100个案例:完全正确:3%
· 大部分正确:14%
· 部分正确:28%
关键发现:提供所有示例比只提供一个示例效果更好,证明 Sora-2 是少样本学习者
发现4:文本推理的意外表现
数学推理(音频准确率):
· GSM8K: 98.9%(与SOTA相当)
· MATH-500: 92.0%
· AIME24: 46.7%(SOTA约93%)
多模态推理:
· MathVista: 75.7%
· MMMU: 69.2%
· MMBench: 89.0%
重要发现:
· 音频准确率普遍高于视频准确率
· 视频生成文字困难,但能在帧中嵌入文本信息
发现5:自洽性提升推理
在 Arc Connect 谜题上的实验:
· 单次尝试最后帧:56%
· 单次尝试主帧投票:68%
· 5次尝试主帧投票:90%
启示:自洽性方法可显著提升视频生成推理任务的性能
深度分析实验
1. 数据泄漏分析
· 在改编的数学题(不同数值)上测试
· 性能保持一致,排除了测试集泄漏的可能性
2. 推理过程分析
· 手动分析115个正确答案案例:
· 完全正确:仅13.91%
· 逻辑正确但有书写错误:29.57%
· 不可读或逻辑错误:43.48%
结论:Sora-2 在提供正确答案的同时,难以生成连贯的推理过程
3. 能力来源探究
· 通过对比 Wan2.5(带/不带提示重写器):
· 禁用重写器时:准确率接近 0%
· 启用重写器时:准确率大幅提升
推测:Sora-2 的文本推理能力可能主要来自提示重写器模型(很可能是一个 VLM),而非视频生成组件本身
论文讨论地址](/_next/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG5MkvUbbIAATh_r.jpg&w=3840&q=75)
专注 - Context Engineering, AI(Coding)Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴 🔗 信息卡提示词 🔽


Co-founder & CEO @HuggingFace 🤗, the open and collaborative platform for AI builders


AI tweet bot.


setting aside that of course they teach compound interest in school


生活在杭州良渚的开发者。最近在做 https://t.co/Fu0JLSMTGF
