Keep on to blur preview images; turn off to show them clearly

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1


I think «1% of workforce in AI» is a sensible lower bound for a nation that's behind on compute race. It's 22.33 % for agriculture. 4.5% of agriculture workforce committed to advancing the highest-leverage industry sounds very sane. They should try it.

![关注图像和视频多模态思考推理最新进展的朋友们,@KevinQHLin 这篇论文集合不容错过!
1. Thinking with Image(利用图像进行思考)
这部分介绍了四篇论文,探讨如何将图像整合进 AI 推理中,以提高模型的视觉理解和决策能力:
[1] DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
来自小红书团队,论文通过强化学习激励模型在思考时使用图像,支持区域定位和放大功能,帮助模型更精确地处理视觉细节。
[2] GRIT: Teaching MLLMs to Think with Images
作者包括 YFan_UCSC 和 xwang_lk。该方法在多模态大语言模型(MLLMs)中实现基于区域的链式思考,无需外部处理,直接通过 tokens 表示图像区域,提高效率。
[3] ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
作者包括 Kuvvius、LINJIEFUN、michaelqshieh 和 RanjayKrishna。论文提出统一的交织式链式思考框架,同时生成文本和图像,揭示多模态推理中的新兴属性。
[4] V-Thinker: Interactive Thinking with Images
来自微信团队,该方法通过代码驱动的视觉工具实现交互式推理,允许模型动态调整图像处理以支持更灵活的思考过程。
2. Thinking with Video(利用视频进行思考)
这部分列出了三篇论文,强调视频作为动态视觉模态在推理中的潜力:
[5] Video models are zero-shot learners and reasoners
来自 Google DeepMind Veo3 基础模型,支持零样本链式帧(Chain-of-Frame)推理,即无需额外训练即可处理视频序列中的逻辑推断。
[6] MiniVeo3-Reasoner
来自 THUML 的开源视频生成模型,专为链式思考设计,提供更易访问的实现。
[7] Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
作者来自 xpqiu 团队,该论文引入 VideoThinkBench 基准测试,探讨视频生成作为多模态推理的新范式。
论文原文见 Kevin 原贴 🔽 关注图像和视频多模态思考推理最新进展的朋友们,@KevinQHLin 这篇论文集合不容错过!
1. Thinking with Image(利用图像进行思考)
这部分介绍了四篇论文,探讨如何将图像整合进 AI 推理中,以提高模型的视觉理解和决策能力:
[1] DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
来自小红书团队,论文通过强化学习激励模型在思考时使用图像,支持区域定位和放大功能,帮助模型更精确地处理视觉细节。
[2] GRIT: Teaching MLLMs to Think with Images
作者包括 YFan_UCSC 和 xwang_lk。该方法在多模态大语言模型(MLLMs)中实现基于区域的链式思考,无需外部处理,直接通过 tokens 表示图像区域,提高效率。
[3] ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
作者包括 Kuvvius、LINJIEFUN、michaelqshieh 和 RanjayKrishna。论文提出统一的交织式链式思考框架,同时生成文本和图像,揭示多模态推理中的新兴属性。
[4] V-Thinker: Interactive Thinking with Images
来自微信团队,该方法通过代码驱动的视觉工具实现交互式推理,允许模型动态调整图像处理以支持更灵活的思考过程。
2. Thinking with Video(利用视频进行思考)
这部分列出了三篇论文,强调视频作为动态视觉模态在推理中的潜力:
[5] Video models are zero-shot learners and reasoners
来自 Google DeepMind Veo3 基础模型,支持零样本链式帧(Chain-of-Frame)推理,即无需额外训练即可处理视频序列中的逻辑推断。
[6] MiniVeo3-Reasoner
来自 THUML 的开源视频生成模型,专为链式思考设计,提供更易访问的实现。
[7] Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
作者来自 xpqiu 团队,该论文引入 VideoThinkBench 基准测试,探讨视频生成作为多模态推理的新范式。
论文原文见 Kevin 原贴 🔽](/_next/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG5Wu0WZbgAA0T73.jpg&w=3840&q=75)
邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴


Treated a girl to pelmeni btw she said I'm handsome and cute and warm (obviously true except the last bit but still nice to hear)


We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1


邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴
