LogoThread Easy
  • 探索
  • 撰写 Thread
LogoThread Easy

您的一体化 Twitter 线程助手

© 2025 Thread Easy All Rights Reserved.

探索

最新在前,按卡片方式浏览线程

开启时会模糊预览图,关闭后正常显示

Not possible with naive SFT. You'll get a fake Christmas tree bauble from that Soviet anecdote: looks the same, but there's no joy in it.
Of course we have the technology. But 4o may be in a bad spot because I get the feeling few technical people are interested in saving it.

Not possible with naive SFT. You'll get a fake Christmas tree bauble from that Soviet anecdote: looks the same, but there's no joy in it. Of course we have the technology. But 4o may be in a bad spot because I get the feeling few technical people are interested in saving it.

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Mon Nov 10 00:54:41
Cursor Composer 是怎么构建的?

来自 @cursor_ai 研究员 @srush_nlp 在 @anyscalecompute Ray Summit 的主题演讲,焦点在于技术创新、挑战与实际应用,强调了强化学习在构建专用 AI 模型中的作用。

Composer 的核心特点与动机
Rush 首先解释了 Composer 的性能亮点:在 Cursor 的内部基准测试中,它的表现接近顶级前沿模型,优于2024年夏季发布的模型、最佳开源模型以及标榜“快速”的编码模型。同时,它在 token 生成效率上领先同类智能模型 4 倍,并在实际编辑器中使用时显著更快。这使得 Composer 不仅仅是“聪明”,还“感觉”快速,用户能保持连续的思维流程,而非等待漫长的响应。

构建 Composer 的灵感来源于 Cursor 应用的热门功能 “Cursor Tab”。随后,团队开发了名为 “Cheetah” 的原型智能体模型,用户形容其如“外星科技”。基于此,目标是创建更智能的版本,同时保留高效性。Rush 强调,智能不是追求通用基准,而是针对真实编码场景:如处理大型代码库、遵守代码风格标准。这些要素对日常软件开发至关重要。

此外,Composer 强调“感觉快速”:不仅 token 生成高效,还利用并行工具调用(如同时搜索代码、运行终端命令、编辑文件),让整个过程在几秒内完成。Rush 通过一个演示视频展示了这一体验:用户提交查询后,智能体立即多线程执行工具,快速生成编辑和总结,与传统智能体的缓慢迭代形成鲜明对比。

技术实现:智能体 RL 与基础设施
演讲的核心部分是 Composer 的构建方法。Rush 简要概述了 Cursor 的工作机制:用户查询发送到后端,智能体生成 token,形成 XML 格式的工具调用(如读文件、编辑、代码搜索、运行命令)。这些工具可串行或并行执行,智能体在 IDE 中实时显示变化。

Composer 采用强化学习(RL)训练:从用户查询开始,模拟多个 “rollout”(路径),每个路径使用不同工具序列尝试解决问题。然后评分这些路径(例如,哪个更有效),并据此更新模型参数。这类似于并行运行多个 Cursor 实例,优化最佳路径。

Rush 讨论了三大挑战:
1. 训练与推理匹配:使用大规模混合专家(MoE)模型,在数千 GPU 上分布式训练。团队开发自定义内核,支持低精度(MXFP8)训练,提升速度3.5倍(尤其在 Blackwell 芯片上),并无需额外量化。
2. 复杂 rollout:真实编码任务涉及 10 万到百万 token 和数百工具调用,时间不均。使用 Ray 框架管理负载均衡,避免“拖尾”问题(某些路径过慢)。
3. 一致性:训练环境需模拟生产 Cursor,包括相同工具响应。团队复用 Cursor 的“云智能体”基础设施,使用 microVMs 创建状态化环境,支持文件修改和命令执行。同时,集成自定义嵌入模型进行语义搜索,帮助智能体高效定位文件。

这些基础设施决策(如 PyTorch 训练服务器、Ray 推理服务器、VM 环境服务器的集成)是成功关键,确保训练与实际部署无缝衔接。

成果、见解与未来展望
在发布一周后,Rush 分享了初步成果:随着 RL 迭代,模型性能从开源水平稳步提升至发布版,证明了计算投入的有效性。模型学会了更多并行工具调用,减少了盲目编辑,转而更多阅读和搜索,提高准确性。用户反馈积极,认为速度与智能的结合改变了编码习惯——从“启动智能体后等待”转为“快速迭代解决问题”。

Rush 的反思包括:
· RL 特别适合构建领域专化模型,而非通用 LLM。
· AI 已改变研发流程:团队使用自家智能体构建仪表盘和后端,加速小团队迭代。
· 基础设施是 RL 的核心驱动力,涉及产品、规模与ML的深度整合。

视频地址:

Cursor Composer 是怎么构建的? 来自 @cursor_ai 研究员 @srush_nlp 在 @anyscalecompute Ray Summit 的主题演讲,焦点在于技术创新、挑战与实际应用,强调了强化学习在构建专用 AI 模型中的作用。 Composer 的核心特点与动机 Rush 首先解释了 Composer 的性能亮点:在 Cursor 的内部基准测试中,它的表现接近顶级前沿模型,优于2024年夏季发布的模型、最佳开源模型以及标榜“快速”的编码模型。同时,它在 token 生成效率上领先同类智能模型 4 倍,并在实际编辑器中使用时显著更快。这使得 Composer 不仅仅是“聪明”,还“感觉”快速,用户能保持连续的思维流程,而非等待漫长的响应。 构建 Composer 的灵感来源于 Cursor 应用的热门功能 “Cursor Tab”。随后,团队开发了名为 “Cheetah” 的原型智能体模型,用户形容其如“外星科技”。基于此,目标是创建更智能的版本,同时保留高效性。Rush 强调,智能不是追求通用基准,而是针对真实编码场景:如处理大型代码库、遵守代码风格标准。这些要素对日常软件开发至关重要。 此外,Composer 强调“感觉快速”:不仅 token 生成高效,还利用并行工具调用(如同时搜索代码、运行终端命令、编辑文件),让整个过程在几秒内完成。Rush 通过一个演示视频展示了这一体验:用户提交查询后,智能体立即多线程执行工具,快速生成编辑和总结,与传统智能体的缓慢迭代形成鲜明对比。 技术实现:智能体 RL 与基础设施 演讲的核心部分是 Composer 的构建方法。Rush 简要概述了 Cursor 的工作机制:用户查询发送到后端,智能体生成 token,形成 XML 格式的工具调用(如读文件、编辑、代码搜索、运行命令)。这些工具可串行或并行执行,智能体在 IDE 中实时显示变化。 Composer 采用强化学习(RL)训练:从用户查询开始,模拟多个 “rollout”(路径),每个路径使用不同工具序列尝试解决问题。然后评分这些路径(例如,哪个更有效),并据此更新模型参数。这类似于并行运行多个 Cursor 实例,优化最佳路径。 Rush 讨论了三大挑战: 1. 训练与推理匹配:使用大规模混合专家(MoE)模型,在数千 GPU 上分布式训练。团队开发自定义内核,支持低精度(MXFP8)训练,提升速度3.5倍(尤其在 Blackwell 芯片上),并无需额外量化。 2. 复杂 rollout:真实编码任务涉及 10 万到百万 token 和数百工具调用,时间不均。使用 Ray 框架管理负载均衡,避免“拖尾”问题(某些路径过慢)。 3. 一致性:训练环境需模拟生产 Cursor,包括相同工具响应。团队复用 Cursor 的“云智能体”基础设施,使用 microVMs 创建状态化环境,支持文件修改和命令执行。同时,集成自定义嵌入模型进行语义搜索,帮助智能体高效定位文件。 这些基础设施决策(如 PyTorch 训练服务器、Ray 推理服务器、VM 环境服务器的集成)是成功关键,确保训练与实际部署无缝衔接。 成果、见解与未来展望 在发布一周后,Rush 分享了初步成果:随着 RL 迭代,模型性能从开源水平稳步提升至发布版,证明了计算投入的有效性。模型学会了更多并行工具调用,减少了盲目编辑,转而更多阅读和搜索,提高准确性。用户反馈积极,认为速度与智能的结合改变了编码习惯——从“启动智能体后等待”转为“快速迭代解决问题”。 Rush 的反思包括: · RL 特别适合构建领域专化模型,而非通用 LLM。 · AI 已改变研发流程:团队使用自家智能体构建仪表盘和后端,加速小团队迭代。 · 基础设施是 RL 的核心驱动力,涉及产品、规模与ML的深度整合。 视频地址:

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Mon Nov 10 00:54:20
RT @blob_watcher: A decade ago I used to think allegations that Americans have acquired Qing dynasty tier ignorance and chauvinism was just…

RT @blob_watcher: A decade ago I used to think allegations that Americans have acquired Qing dynasty tier ignorance and chauvinism was just…

We're in a race. It's not USA vs China but humans and AGIs vs ape power centralization. @deepseek_ai stan #1, 2023–Deep Time «C’est la guerre.» ®1

avatar for Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)
Mon Nov 10 00:51:49
我的产品简单简历 https://t.co/2vTyY4JaoL 开始一年一度双十一的特价活动啦,终生会员原价188元,现在特价 99 元。

去年的双十一活动我记得很成功,创下了收入的小新高,如果有要写简历的朋友,可以试试看。我很多次横向对比了市面上写简历的工具,不谦虚的说,在我看来算是挺易用也是很美观的。

我的产品简单简历 https://t.co/2vTyY4JaoL 开始一年一度双十一的特价活动啦,终生会员原价188元,现在特价 99 元。 去年的双十一活动我记得很成功,创下了收入的小新高,如果有要写简历的朋友,可以试试看。我很多次横向对比了市面上写简历的工具,不谦虚的说,在我看来算是挺易用也是很美观的。

独立开发者 自由职业 作品 - 简单简历 https://t.co/xMu5JFIGnr 五分钟打造程序员的金牌简历 课程 - 慕课网精英讲师 https://t.co/NTyFFrvHwL 经历 - 不上班的1000天 https://t.co/bonuLQCCsY 视频 - https://t.co/aQYLgujIyC

avatar for Viking
Viking
Mon Nov 10 00:51:20
小型 VLM + 自定义数据集微调 ≈ GPT-5,且便宜 50 倍!

来自 @LiquidAI_ 成员 @paulabartabajo_ 给 AI 工程师的实用建议。核心观点强调:在特定任务或领域,使用小型视觉语言模型(VLM)并基于自定义数据集进行微调,可以实现与大型通用模型(如 GPT-5)相当的准确性,同时显著降低成本(约 50 倍)。这体现了 AI 开发中的效率优先原则:小型模型在专用场景下往往更经济、更易部署,且通过微调能针对性优化性能,避免大模型的资源浪费。

开源项目
使用 Liquid AI 基础模型(LFM)和 LEAP SDK 构建的各种教程、示例和应用。演示了如何构建一个本地化的智能体工作流,用于自动解析发票文件。它强调数据隐私,因为整个过程在用户本地机器上运行,无需云服务或 API 密钥。

创建一个简单的 Python CLI,它可以监控指定文件夹中的新发票文件(通常为图像格式,如 PNG 或 JPEG),并从中提取结构化信息,例如金额和货币。然后,将提取的结果追加到 CSV 文件中,便于后续分析或记录。该工作流适用于处理日常账单或发票,展示了小型本地语言模型在实际任务中的应用潜力。根据测试,它能正确处理约 75% 的样本发票,突出模型的实用性和改进空间。

关键技术和模型
· @ollama:用于在本地运行和管理语言模型的框架,支持高效的模型推理。
· uv:一个高效的 Python 包管理器,用于处理依赖和脚本执行,提高开发效率。
· LFM2-VL-3B:Liquid AI 的视觉语言模型,负责从发票图像中提取原始文本描述,包括 OCR 功能。
· LFM2-1.2B-Extract:另一个 Liquid AI 模型,专用于将非结构化文本转换为结构化数据记录,例如 JSON 格式的金额和货币字段。

这些模型均为小型(nano 级),可在普通硬件上运行,强调成本效益和本地部署。

代码结构和工作原理
代码主要位于 src/invoice_parser/main.py,采用模块化设计,便于扩展。工作流分为以下步骤:
1. 文件监控:工具持续监视指定的目录(如 invoices/),检测新添加的发票文件。
2. 文本提取:一旦检测到新文件,LFM2-VL-3B 模型会处理图像,生成原始文本描述(例如,识别出 “Total: $100 USD” 等内容)。
3. 信息结构化:将提取的文本传递给 LFM2-1.2B-Extract 模型,它使用提示工程将文本转换为结构化数据,如 {"amount": 100, "currency": "USD"}。
4. 数据存储:将结构化结果追加到目录中的 bills.csv 文件,确保数据持久化。

整个过程是链式的(chained),类似于智能体协作:视觉模型充当“眼睛”,提取模型充当“大脑”。如果处理现有文件,可以通过命令行参数启用。

开源地址:

小型 VLM + 自定义数据集微调 ≈ GPT-5,且便宜 50 倍! 来自 @LiquidAI_ 成员 @paulabartabajo_ 给 AI 工程师的实用建议。核心观点强调:在特定任务或领域,使用小型视觉语言模型(VLM)并基于自定义数据集进行微调,可以实现与大型通用模型(如 GPT-5)相当的准确性,同时显著降低成本(约 50 倍)。这体现了 AI 开发中的效率优先原则:小型模型在专用场景下往往更经济、更易部署,且通过微调能针对性优化性能,避免大模型的资源浪费。 开源项目 使用 Liquid AI 基础模型(LFM)和 LEAP SDK 构建的各种教程、示例和应用。演示了如何构建一个本地化的智能体工作流,用于自动解析发票文件。它强调数据隐私,因为整个过程在用户本地机器上运行,无需云服务或 API 密钥。 创建一个简单的 Python CLI,它可以监控指定文件夹中的新发票文件(通常为图像格式,如 PNG 或 JPEG),并从中提取结构化信息,例如金额和货币。然后,将提取的结果追加到 CSV 文件中,便于后续分析或记录。该工作流适用于处理日常账单或发票,展示了小型本地语言模型在实际任务中的应用潜力。根据测试,它能正确处理约 75% 的样本发票,突出模型的实用性和改进空间。 关键技术和模型 · @ollama:用于在本地运行和管理语言模型的框架,支持高效的模型推理。 · uv:一个高效的 Python 包管理器,用于处理依赖和脚本执行,提高开发效率。 · LFM2-VL-3B:Liquid AI 的视觉语言模型,负责从发票图像中提取原始文本描述,包括 OCR 功能。 · LFM2-1.2B-Extract:另一个 Liquid AI 模型,专用于将非结构化文本转换为结构化数据记录,例如 JSON 格式的金额和货币字段。 这些模型均为小型(nano 级),可在普通硬件上运行,强调成本效益和本地部署。 代码结构和工作原理 代码主要位于 src/invoice_parser/main.py,采用模块化设计,便于扩展。工作流分为以下步骤: 1. 文件监控:工具持续监视指定的目录(如 invoices/),检测新添加的发票文件。 2. 文本提取:一旦检测到新文件,LFM2-VL-3B 模型会处理图像,生成原始文本描述(例如,识别出 “Total: $100 USD” 等内容)。 3. 信息结构化:将提取的文本传递给 LFM2-1.2B-Extract 模型,它使用提示工程将文本转换为结构化数据,如 {"amount": 100, "currency": "USD"}。 4. 数据存储:将结构化结果追加到目录中的 bills.csv 文件,确保数据持久化。 整个过程是链式的(chained),类似于智能体协作:视觉模型充当“眼睛”,提取模型充当“大脑”。如果处理现有文件,可以通过命令行参数启用。 开源地址:

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Mon Nov 10 00:38:00
RT @python_xxt: Be valuable, not available.

——分享一个接电话的习惯:

最近两年,我不再像以前那样,铃声响起,就快速接电话,对于非预期拨入的电话或语音,我大部分不会接,都是过十几分钟,或者更长一段时间,看情况再回复。

如果是真正…

RT @python_xxt: Be valuable, not available. ——分享一个接电话的习惯: 最近两年,我不再像以前那样,铃声响起,就快速接电话,对于非预期拨入的电话或语音,我大部分不会接,都是过十几分钟,或者更长一段时间,看情况再回复。 如果是真正…

从投资领域转到创业:找工作、找面试题、改简历、模拟面试. 创业(冷启动)|AI , AIGC | 安全技术|RAG | 时空智能 | 认知心理学|智能体 | 生命科学 | 强化学习 I built open source software at https://t.co/b69DXZhcyR

avatar for Y11-杨继芸-靠谱找工作、找面试题、改简历、模拟面试
Y11-杨继芸-靠谱找工作、找面试题、改简历、模拟面试
Mon Nov 10 00:34:31
  • Previous
  • 1
  • More pages
  • 313
  • 314
  • 315
  • More pages
  • 2127
  • Next