LogoThread Easy
  • 探索
  • 撰写 Thread
LogoThread Easy

您的一体化 Twitter 线程助手

© 2025 Thread Easy All Rights Reserved.

探索

最新在前,按卡片方式浏览线程

开启时会模糊预览图,关闭后正常显示

Full remarks.

Full remarks.

Co-Founder, American Dynamism. General Partner @a16z. Catholic. Mother. American. 🇺🇸 🚀💪

avatar for Katherine Boyle
Katherine Boyle
Sat Nov 08 01:57:44
Full remarks.

Full remarks.

Co-Founder, American Dynamism. General Partner @a16z. Catholic. Mother. American. 🇺🇸 🚀💪

avatar for Katherine Boyle
Katherine Boyle
Sat Nov 08 01:57:44
Definitely NOT in Europe anymore

Definitely NOT in Europe anymore

🇪🇺https://t.co/NdorAWqJC3 📸https://t.co/lAyoqmSBRX $133K/m 🏡https://t.co/1oqUgfD6CZ $40K/m 🛰https://t.co/ZHSvI2wjyW $36K/m 🌍https://t.co/UXK5AFqCaQ $16K/m 👙https://t.co/RyXpqGuFM3 $14K/m 💾https://t.co/M1hEUBAynC $6k/m

avatar for @levelsio
@levelsio
Sat Nov 08 01:48:52
感觉简中区我们能看到的信息都是被资本控制的,
譬如最近很少再看到赵露思的切片、剧照,以及粉丝后援活动,唏嘘不已。

感觉简中区我们能看到的信息都是被资本控制的, 譬如最近很少再看到赵露思的切片、剧照,以及粉丝后援活动,唏嘘不已。

从投资领域转到创业:找工作、找面试题、改简历、模拟面试. 创业(冷启动)|AI , AIGC | 安全技术|RAG | 时空智能 | 认知心理学|智能体 | 生命科学 | 强化学习 I built open source software at https://t.co/b69DXZhcyR

avatar for Y11
Y11
Sat Nov 08 01:48:48
[论文解读] 用视频思考:视频生成作为一种有前景的多模态推理范式

研究动机:现有范式的局限
论文指出当前两种主流 AI 推理范式存在明显缺陷:
1. "用文本思考"(Thinking with Text)
· 代表:Chain-of-Thought (CoT)
· 局限:纯文本缺乏视觉信息,无法处理视觉推理任务
2. "用图像思考"(Thinking with Images)
· 代表:OpenAI o3、o4-mini 等模型
· 两大问题:静态约束:图像只能捕捉单一时刻,无法表现动态过程或连续变化
· 模态割裂:文本和视觉作为独立模态,阻碍统一的多模态理解和生成

创新解决方案:"用视频思考"
论文提出利用视频生成模型(如 Sora-2)构建统一的时间框架,实现视觉和文本推理的桥接。
核心优势
· 动态推理:可视化动态过程(如画线解决空间谜题),表现时序演化和连续变换
· 多模态融合:在视频帧内嵌入文本,实现统一的多模态理解和生成
· 类人认知:更自然地对齐人类涉及想象和心理模拟的认知过程

核心实验发现
发现1:视觉任务表现出色
Eyeballing 游戏:
· Sora-2 整体准确率 40.2%,超越所有竞争对手 Claude 4.5: 35.1%
· GPT-5: 29.7%
· Gemini 2.5: 26.5%

在特定任务表现突出:射线交点:88%(远超其他模型)
圆心:70%

能力展现:
· 可以模拟射线的延伸和反射
· 能操控几何元素(点、线)支持空间推理
· 展现几何和物理推理能力

发现2:归纳推理能力
视觉谜题:
· 颜色填充任务:67.0%(接近Gemini的73.9%)
· 形状绘制任务:64.9%(接近Claude的68.6%)
· 能识别和应用对称、渐变、组合等模式

发现3:少样本学习能力
ARC-AGI-2 测试:
· 自动评估准确率:1.3%
· 手动分析100个案例:完全正确:3%
· 大部分正确:14%
· 部分正确:28%
关键发现:提供所有示例比只提供一个示例效果更好,证明 Sora-2 是少样本学习者

发现4:文本推理的意外表现
数学推理(音频准确率):
· GSM8K: 98.9%(与SOTA相当)
· MATH-500: 92.0%
· AIME24: 46.7%(SOTA约93%)
多模态推理:
· MathVista: 75.7%
· MMMU: 69.2%
· MMBench: 89.0%

重要发现:
· 音频准确率普遍高于视频准确率
· 视频生成文字困难,但能在帧中嵌入文本信息

发现5:自洽性提升推理
在 Arc Connect 谜题上的实验:
· 单次尝试最后帧:56%
· 单次尝试主帧投票:68%
· 5次尝试主帧投票:90%
启示:自洽性方法可显著提升视频生成推理任务的性能

深度分析实验
1. 数据泄漏分析
· 在改编的数学题(不同数值)上测试
· 性能保持一致,排除了测试集泄漏的可能性

2. 推理过程分析
· 手动分析115个正确答案案例:
· 完全正确:仅13.91%
· 逻辑正确但有书写错误:29.57%
· 不可读或逻辑错误:43.48%
结论:Sora-2 在提供正确答案的同时,难以生成连贯的推理过程

3. 能力来源探究
· 通过对比 Wan2.5(带/不带提示重写器):
· 禁用重写器时:准确率接近 0%
· 启用重写器时:准确率大幅提升

推测:Sora-2 的文本推理能力可能主要来自提示重写器模型(很可能是一个 VLM),而非视频生成组件本身

论文讨论地址

[论文解读] 用视频思考:视频生成作为一种有前景的多模态推理范式 研究动机:现有范式的局限 论文指出当前两种主流 AI 推理范式存在明显缺陷: 1. "用文本思考"(Thinking with Text) · 代表:Chain-of-Thought (CoT) · 局限:纯文本缺乏视觉信息,无法处理视觉推理任务 2. "用图像思考"(Thinking with Images) · 代表:OpenAI o3、o4-mini 等模型 · 两大问题:静态约束:图像只能捕捉单一时刻,无法表现动态过程或连续变化 · 模态割裂:文本和视觉作为独立模态,阻碍统一的多模态理解和生成 创新解决方案:"用视频思考" 论文提出利用视频生成模型(如 Sora-2)构建统一的时间框架,实现视觉和文本推理的桥接。 核心优势 · 动态推理:可视化动态过程(如画线解决空间谜题),表现时序演化和连续变换 · 多模态融合:在视频帧内嵌入文本,实现统一的多模态理解和生成 · 类人认知:更自然地对齐人类涉及想象和心理模拟的认知过程 核心实验发现 发现1:视觉任务表现出色 Eyeballing 游戏: · Sora-2 整体准确率 40.2%,超越所有竞争对手 Claude 4.5: 35.1% · GPT-5: 29.7% · Gemini 2.5: 26.5% 在特定任务表现突出:射线交点:88%(远超其他模型) 圆心:70% 能力展现: · 可以模拟射线的延伸和反射 · 能操控几何元素(点、线)支持空间推理 · 展现几何和物理推理能力 发现2:归纳推理能力 视觉谜题: · 颜色填充任务:67.0%(接近Gemini的73.9%) · 形状绘制任务:64.9%(接近Claude的68.6%) · 能识别和应用对称、渐变、组合等模式 发现3:少样本学习能力 ARC-AGI-2 测试: · 自动评估准确率:1.3% · 手动分析100个案例:完全正确:3% · 大部分正确:14% · 部分正确:28% 关键发现:提供所有示例比只提供一个示例效果更好,证明 Sora-2 是少样本学习者 发现4:文本推理的意外表现 数学推理(音频准确率): · GSM8K: 98.9%(与SOTA相当) · MATH-500: 92.0% · AIME24: 46.7%(SOTA约93%) 多模态推理: · MathVista: 75.7% · MMMU: 69.2% · MMBench: 89.0% 重要发现: · 音频准确率普遍高于视频准确率 · 视频生成文字困难,但能在帧中嵌入文本信息 发现5:自洽性提升推理 在 Arc Connect 谜题上的实验: · 单次尝试最后帧:56% · 单次尝试主帧投票:68% · 5次尝试主帧投票:90% 启示:自洽性方法可显著提升视频生成推理任务的性能 深度分析实验 1. 数据泄漏分析 · 在改编的数学题(不同数值)上测试 · 性能保持一致,排除了测试集泄漏的可能性 2. 推理过程分析 · 手动分析115个正确答案案例: · 完全正确:仅13.91% · 逻辑正确但有书写错误:29.57% · 不可读或逻辑错误:43.48% 结论:Sora-2 在提供正确答案的同时,难以生成连贯的推理过程 3. 能力来源探究 · 通过对比 Wan2.5(带/不带提示重写器): · 禁用重写器时:准确率接近 0% · 启用重写器时:准确率大幅提升 推测:Sora-2 的文本推理能力可能主要来自提示重写器模型(很可能是一个 VLM),而非视频生成组件本身 论文讨论地址

专注 - Context Engineering, AI(Coding)Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴 🔗 信息卡提示词 🔽

avatar for meng shao
meng shao
Sat Nov 08 01:41:20
RT @okoge_kaz: We’re releasing SwallowCode-v2 & SwallowMath-v2 — two high-quality, Apache-2.0 licensed datasets for mid-stage pretraining.…

RT @okoge_kaz: We’re releasing SwallowCode-v2 & SwallowMath-v2 — two high-quality, Apache-2.0 licensed datasets for mid-stage pretraining.…

Co-founder & CEO @HuggingFace 🤗, the open and collaborative platform for AI builders

avatar for clem 🤗
clem 🤗
Sat Nov 08 01:40:03
  • Previous
  • 1
  • More pages
  • 500
  • 501
  • 502
  • More pages
  • 2127
  • Next