LogoThread Easy
  • 탐색
  • 스레드 작성
LogoThread Easy

트위터 스레드의 올인원 파트너

© 2025 Thread Easy All Rights Reserved.

탐색

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

I intuitively don't believe this, but should I not believe this? That's an absurd number of researchers. If we include engineers, including normal frontend/backend for AI services… sounds easy? If we include data annotation, they could as well make it 6 million. 1% of workforce.

I intuitively don't believe this, but should I not believe this? That's an absurd number of researchers. If we include engineers, including normal frontend/backend for AI services… sounds easy? If we include data annotation, they could as well make it 6 million. 1% of workforce.

I think «1% of workforce in AI» is a sensible lower bound for a nation that's behind on compute race. It's 22.33 % for agriculture. 4.5% of agriculture workforce committed to advancing the highest-leverage industry sounds very sane. They should try it.

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Mon Nov 10 01:06:17
关注图像和视频多模态思考推理最新进展的朋友们,@KevinQHLin 这篇论文集合不容错过! 

1. Thinking with Image(利用图像进行思考)
   这部分介绍了四篇论文,探讨如何将图像整合进 AI 推理中,以提高模型的视觉理解和决策能力:
   
   [1] DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning  
   来自小红书团队,论文通过强化学习激励模型在思考时使用图像,支持区域定位和放大功能,帮助模型更精确地处理视觉细节。
     
   [2] GRIT: Teaching MLLMs to Think with Images  
   作者包括 YFan_UCSC 和 xwang_lk。该方法在多模态大语言模型(MLLMs)中实现基于区域的链式思考,无需外部处理,直接通过 tokens 表示图像区域,提高效率。
     
   [3] ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning  
   作者包括 Kuvvius、LINJIEFUN、michaelqshieh 和 RanjayKrishna。论文提出统一的交织式链式思考框架,同时生成文本和图像,揭示多模态推理中的新兴属性。
     
   [4] V-Thinker: Interactive Thinking with Images  
   来自微信团队,该方法通过代码驱动的视觉工具实现交互式推理,允许模型动态调整图像处理以支持更灵活的思考过程。

2. Thinking with Video(利用视频进行思考)
   这部分列出了三篇论文,强调视频作为动态视觉模态在推理中的潜力:
   
   [5] Video models are zero-shot learners and reasoners  
   来自 Google DeepMind Veo3 基础模型,支持零样本链式帧(Chain-of-Frame)推理,即无需额外训练即可处理视频序列中的逻辑推断。
     
   [6] MiniVeo3-Reasoner  
   来自 THUML 的开源视频生成模型,专为链式思考设计,提供更易访问的实现。
     
   [7] Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm  
   作者来自 xpqiu 团队,该论文引入 VideoThinkBench 基准测试,探讨视频生成作为多模态推理的新范式。

论文原文见 Kevin 原贴 🔽

关注图像和视频多模态思考推理最新进展的朋友们,@KevinQHLin 这篇论文集合不容错过! 1. Thinking with Image(利用图像进行思考) 这部分介绍了四篇论文,探讨如何将图像整合进 AI 推理中,以提高模型的视觉理解和决策能力: [1] DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning 来自小红书团队,论文通过强化学习激励模型在思考时使用图像,支持区域定位和放大功能,帮助模型更精确地处理视觉细节。 [2] GRIT: Teaching MLLMs to Think with Images 作者包括 YFan_UCSC 和 xwang_lk。该方法在多模态大语言模型(MLLMs)中实现基于区域的链式思考,无需外部处理,直接通过 tokens 表示图像区域,提高效率。 [3] ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning 作者包括 Kuvvius、LINJIEFUN、michaelqshieh 和 RanjayKrishna。论文提出统一的交织式链式思考框架,同时生成文本和图像,揭示多模态推理中的新兴属性。 [4] V-Thinker: Interactive Thinking with Images 来自微信团队,该方法通过代码驱动的视觉工具实现交互式推理,允许模型动态调整图像处理以支持更灵活的思考过程。 2. Thinking with Video(利用视频进行思考) 这部分列出了三篇论文,强调视频作为动态视觉模态在推理中的潜力: [5] Video models are zero-shot learners and reasoners 来自 Google DeepMind Veo3 基础模型,支持零样本链式帧(Chain-of-Frame)推理,即无需额外训练即可处理视频序列中的逻辑推断。 [6] MiniVeo3-Reasoner 来自 THUML 的开源视频生成模型,专为链式思考设计,提供更易访问的实现。 [7] Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm 作者来自 xpqiu 团队,该论文引入 VideoThinkBench 基准测试,探讨视频生成作为多模态推理的新范式。 论文原文见 Kevin 原贴 🔽

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Mon Nov 10 01:01:56
Finally got pelmeni, tvorog, kefir, smetana and PROPER rye bread. Reminded myself that Argentinians have no idea about good food
Slavic cuisine is "simple" but quality of ingredients can be astronomical. Gaucho cuisine is inherently simple because it's low-effort

Finally got pelmeni, tvorog, kefir, smetana and PROPER rye bread. Reminded myself that Argentinians have no idea about good food Slavic cuisine is "simple" but quality of ingredients can be astronomical. Gaucho cuisine is inherently simple because it's low-effort

Treated a girl to pelmeni btw she said I'm handsome and cute and warm (obviously true except the last bit but still nice to hear)

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Mon Nov 10 01:01:31
Not possible with naive SFT. You'll get a fake Christmas tree bauble from that Soviet anecdote: looks the same, but there's no joy in it.
Of course we have the technology. But 4o may be in a bad spot because I get the feeling few technical people are interested in saving it.

Not possible with naive SFT. You'll get a fake Christmas tree bauble from that Soviet anecdote: looks the same, but there's no joy in it. Of course we have the technology. But 4o may be in a bad spot because I get the feeling few technical people are interested in saving it.

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Mon Nov 10 00:54:41
Cursor Composer 是怎么构建的?

来自 @cursor_ai 研究员 @srush_nlp 在 @anyscalecompute Ray Summit 的主题演讲,焦点在于技术创新、挑战与实际应用,强调了强化学习在构建专用 AI 模型中的作用。

Composer 的核心特点与动机
Rush 首先解释了 Composer 的性能亮点:在 Cursor 的内部基准测试中,它的表现接近顶级前沿模型,优于2024年夏季发布的模型、最佳开源模型以及标榜“快速”的编码模型。同时,它在 token 生成效率上领先同类智能模型 4 倍,并在实际编辑器中使用时显著更快。这使得 Composer 不仅仅是“聪明”,还“感觉”快速,用户能保持连续的思维流程,而非等待漫长的响应。

构建 Composer 的灵感来源于 Cursor 应用的热门功能 “Cursor Tab”。随后,团队开发了名为 “Cheetah” 的原型智能体模型,用户形容其如“外星科技”。基于此,目标是创建更智能的版本,同时保留高效性。Rush 强调,智能不是追求通用基准,而是针对真实编码场景:如处理大型代码库、遵守代码风格标准。这些要素对日常软件开发至关重要。

此外,Composer 强调“感觉快速”:不仅 token 生成高效,还利用并行工具调用(如同时搜索代码、运行终端命令、编辑文件),让整个过程在几秒内完成。Rush 通过一个演示视频展示了这一体验:用户提交查询后,智能体立即多线程执行工具,快速生成编辑和总结,与传统智能体的缓慢迭代形成鲜明对比。

技术实现:智能体 RL 与基础设施
演讲的核心部分是 Composer 的构建方法。Rush 简要概述了 Cursor 的工作机制:用户查询发送到后端,智能体生成 token,形成 XML 格式的工具调用(如读文件、编辑、代码搜索、运行命令)。这些工具可串行或并行执行,智能体在 IDE 中实时显示变化。

Composer 采用强化学习(RL)训练:从用户查询开始,模拟多个 “rollout”(路径),每个路径使用不同工具序列尝试解决问题。然后评分这些路径(例如,哪个更有效),并据此更新模型参数。这类似于并行运行多个 Cursor 实例,优化最佳路径。

Rush 讨论了三大挑战:
1. 训练与推理匹配:使用大规模混合专家(MoE)模型,在数千 GPU 上分布式训练。团队开发自定义内核,支持低精度(MXFP8)训练,提升速度3.5倍(尤其在 Blackwell 芯片上),并无需额外量化。
2. 复杂 rollout:真实编码任务涉及 10 万到百万 token 和数百工具调用,时间不均。使用 Ray 框架管理负载均衡,避免“拖尾”问题(某些路径过慢)。
3. 一致性:训练环境需模拟生产 Cursor,包括相同工具响应。团队复用 Cursor 的“云智能体”基础设施,使用 microVMs 创建状态化环境,支持文件修改和命令执行。同时,集成自定义嵌入模型进行语义搜索,帮助智能体高效定位文件。

这些基础设施决策(如 PyTorch 训练服务器、Ray 推理服务器、VM 环境服务器的集成)是成功关键,确保训练与实际部署无缝衔接。

成果、见解与未来展望
在发布一周后,Rush 分享了初步成果:随着 RL 迭代,模型性能从开源水平稳步提升至发布版,证明了计算投入的有效性。模型学会了更多并行工具调用,减少了盲目编辑,转而更多阅读和搜索,提高准确性。用户反馈积极,认为速度与智能的结合改变了编码习惯——从“启动智能体后等待”转为“快速迭代解决问题”。

Rush 的反思包括:
· RL 特别适合构建领域专化模型,而非通用 LLM。
· AI 已改变研发流程:团队使用自家智能体构建仪表盘和后端,加速小团队迭代。
· 基础设施是 RL 的核心驱动力,涉及产品、规模与ML的深度整合。

视频地址:

Cursor Composer 是怎么构建的? 来自 @cursor_ai 研究员 @srush_nlp 在 @anyscalecompute Ray Summit 的主题演讲,焦点在于技术创新、挑战与实际应用,强调了强化学习在构建专用 AI 模型中的作用。 Composer 的核心特点与动机 Rush 首先解释了 Composer 的性能亮点:在 Cursor 的内部基准测试中,它的表现接近顶级前沿模型,优于2024年夏季发布的模型、最佳开源模型以及标榜“快速”的编码模型。同时,它在 token 生成效率上领先同类智能模型 4 倍,并在实际编辑器中使用时显著更快。这使得 Composer 不仅仅是“聪明”,还“感觉”快速,用户能保持连续的思维流程,而非等待漫长的响应。 构建 Composer 的灵感来源于 Cursor 应用的热门功能 “Cursor Tab”。随后,团队开发了名为 “Cheetah” 的原型智能体模型,用户形容其如“外星科技”。基于此,目标是创建更智能的版本,同时保留高效性。Rush 强调,智能不是追求通用基准,而是针对真实编码场景:如处理大型代码库、遵守代码风格标准。这些要素对日常软件开发至关重要。 此外,Composer 强调“感觉快速”:不仅 token 生成高效,还利用并行工具调用(如同时搜索代码、运行终端命令、编辑文件),让整个过程在几秒内完成。Rush 通过一个演示视频展示了这一体验:用户提交查询后,智能体立即多线程执行工具,快速生成编辑和总结,与传统智能体的缓慢迭代形成鲜明对比。 技术实现:智能体 RL 与基础设施 演讲的核心部分是 Composer 的构建方法。Rush 简要概述了 Cursor 的工作机制:用户查询发送到后端,智能体生成 token,形成 XML 格式的工具调用(如读文件、编辑、代码搜索、运行命令)。这些工具可串行或并行执行,智能体在 IDE 中实时显示变化。 Composer 采用强化学习(RL)训练:从用户查询开始,模拟多个 “rollout”(路径),每个路径使用不同工具序列尝试解决问题。然后评分这些路径(例如,哪个更有效),并据此更新模型参数。这类似于并行运行多个 Cursor 实例,优化最佳路径。 Rush 讨论了三大挑战: 1. 训练与推理匹配:使用大规模混合专家(MoE)模型,在数千 GPU 上分布式训练。团队开发自定义内核,支持低精度(MXFP8)训练,提升速度3.5倍(尤其在 Blackwell 芯片上),并无需额外量化。 2. 复杂 rollout:真实编码任务涉及 10 万到百万 token 和数百工具调用,时间不均。使用 Ray 框架管理负载均衡,避免“拖尾”问题(某些路径过慢)。 3. 一致性:训练环境需模拟生产 Cursor,包括相同工具响应。团队复用 Cursor 的“云智能体”基础设施,使用 microVMs 创建状态化环境,支持文件修改和命令执行。同时,集成自定义嵌入模型进行语义搜索,帮助智能体高效定位文件。 这些基础设施决策(如 PyTorch 训练服务器、Ray 推理服务器、VM 环境服务器的集成)是成功关键,确保训练与实际部署无缝衔接。 成果、见解与未来展望 在发布一周后,Rush 分享了初步成果:随着 RL 迭代,模型性能从开源水平稳步提升至发布版,证明了计算投入的有效性。模型学会了更多并行工具调用,减少了盲目编辑,转而更多阅读和搜索,提高准确性。用户反馈积极,认为速度与智能的结合改变了编码习惯——从“启动智能体后等待”转为“快速迭代解决问题”。 Rush 的反思包括: · RL 特别适合构建领域专化模型,而非通用 LLM。 · AI 已改变研发流程:团队使用自家智能体构建仪表盘和后端,加速小团队迭代。 · 基础设施是 RL 的核心驱动力,涉及产品、规模与ML的深度整合。 视频地址:

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Mon Nov 10 00:54:20
RT @blob_watcher: A decade ago I used to think allegations that Americans have acquired Qing dynasty tier ignorance and chauvinism was just…

RT @blob_watcher: A decade ago I used to think allegations that Americans have acquired Qing dynasty tier ignorance and chauvinism was just…

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Mon Nov 10 00:51:49
  • Previous
  • 1
  • More pages
  • 297
  • 298
  • 299
  • More pages
  • 2111
  • Next