LogoThread Easy
  • 探索
  • 線程創作
LogoThread Easy

Twitter 線程的一站式夥伴

© 2025 Thread Easy All Rights Reserved.

探索

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

OCR Arena:AI 文档处理模型的实战竞技场

OCR 和 VLM 的实际表现如何,在官方 benchmark 之外,应该有更直观实际的对比,OCR Arena 就是一个专为测试真实文档设计的互动 playground,帮助开发者直观比较不同模型的表现,支持与 Gemini 3、DeepSeek-OCR、GPT-5 等 10 多个流行模型的面对面的比较。
  
平台亮点
· 侧边比较:实时上传文档,生成视觉差异图(visual diff),便于检查格式错误、表格完整性和提取精度。
· 多样支持:适用于结构化文件、表格、手写体和扫描图像,覆盖智能体在自动化工作流中的常见需求。
· 透明排行:公共 leaderboard 基于用户测试,提供无偏见的模型排名。
· 实际价值:Sumanth 指出,这比静态基准更可靠,因为真实文档往往“乱七八糟”,测试能揭示模型在边缘场景下的鲁棒性。

在线对比

OCR Arena:AI 文档处理模型的实战竞技场 OCR 和 VLM 的实际表现如何,在官方 benchmark 之外,应该有更直观实际的对比,OCR Arena 就是一个专为测试真实文档设计的互动 playground,帮助开发者直观比较不同模型的表现,支持与 Gemini 3、DeepSeek-OCR、GPT-5 等 10 多个流行模型的面对面的比较。 平台亮点 · 侧边比较:实时上传文档,生成视觉差异图(visual diff),便于检查格式错误、表格完整性和提取精度。 · 多样支持:适用于结构化文件、表格、手写体和扫描图像,覆盖智能体在自动化工作流中的常见需求。 · 透明排行:公共 leaderboard 基于用户测试,提供无偏见的模型排名。 · 实际价值:Sumanth 指出,这比静态基准更可靠,因为真实文档往往“乱七八糟”,测试能揭示模型在边缘场景下的鲁棒性。 在线对比

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Wed Nov 26 00:53:59
AI在重新定义芯片该长什么样。

芯片也在决定AI能走多远。

有三个趋势:

1. 从通用走向专用。

以前大家都用通用GPU跑AI。

但现在会发现,针对大模型推理、训练、端侧部署。

芯片的设计逻辑完全不一样。

未来3-5年,我觉得会出现更多专用AI芯片。

比如说,训练芯片要堆算力,推理芯片要省功耗,端侧芯片要低延迟。

英伟达现在也在分化产品线,H系列做训练,L系列做推理。

国内像壁仞、燧原这些公司,也在找差异化定位。

未来不会一家通吃,会形成 "训练有训练的王者,推理有推理的霸主,端侧有端侧的玩家" 这样的格局。

2. 存算一体突破,解决内存墙问题。

现在大模型最大的瓶颈不是算力,是数据搬运。

芯片要不停地从内存读数据、算完再写回去,这个过程太慢、太耗电。

存算一体就是把计算和存储放在一起,数据不用来回搬了。

技术如果突破,对AI的影响巨大。

清华、中科院、还有一些创业公司都在做这个方向。

未来3-5年,如果存算一体芯片能量产。

让大模型的推理成本降低一个数量级,很多现在做不了的应用到时就能做了。

3. 芯片和算法一起优化。

以前算法工程师写代码,芯片工程师做芯片,两边各干各的。

但现在很多公司在做联合设计。

算法知道芯片的特性,芯片针对算法做优化。

苹果就是,他们的神经网络引擎和iOS的AI功能是一起设计的,所以iPhone上跑AI模型很流畅。

特斯拉的FSD芯片也是这样,针对自动驾驶算法定制的。

国内觉得华为在这方面做得比较好。

昇腾芯片和盘古大模型、鸿蒙系统是打通的。

未来这种软硬一体的能力,会成为核心竞争力。

AI在重新定义芯片该长什么样。 芯片也在决定AI能走多远。 有三个趋势: 1. 从通用走向专用。 以前大家都用通用GPU跑AI。 但现在会发现,针对大模型推理、训练、端侧部署。 芯片的设计逻辑完全不一样。 未来3-5年,我觉得会出现更多专用AI芯片。 比如说,训练芯片要堆算力,推理芯片要省功耗,端侧芯片要低延迟。 英伟达现在也在分化产品线,H系列做训练,L系列做推理。 国内像壁仞、燧原这些公司,也在找差异化定位。 未来不会一家通吃,会形成 "训练有训练的王者,推理有推理的霸主,端侧有端侧的玩家" 这样的格局。 2. 存算一体突破,解决内存墙问题。 现在大模型最大的瓶颈不是算力,是数据搬运。 芯片要不停地从内存读数据、算完再写回去,这个过程太慢、太耗电。 存算一体就是把计算和存储放在一起,数据不用来回搬了。 技术如果突破,对AI的影响巨大。 清华、中科院、还有一些创业公司都在做这个方向。 未来3-5年,如果存算一体芯片能量产。 让大模型的推理成本降低一个数量级,很多现在做不了的应用到时就能做了。 3. 芯片和算法一起优化。 以前算法工程师写代码,芯片工程师做芯片,两边各干各的。 但现在很多公司在做联合设计。 算法知道芯片的特性,芯片针对算法做优化。 苹果就是,他们的神经网络引擎和iOS的AI功能是一起设计的,所以iPhone上跑AI模型很流畅。 特斯拉的FSD芯片也是这样,针对自动驾驶算法定制的。 国内觉得华为在这方面做得比较好。 昇腾芯片和盘古大模型、鸿蒙系统是打通的。 未来这种软硬一体的能力,会成为核心竞争力。

喜欢摇滚乐、爱钓鱼的PM 网站:https://t.co/vnUpLt752o

avatar for 向阳乔木
向阳乔木
Wed Nov 26 00:50:18
如何编写优秀的 agents. md:来自 2500+ 代码库的经验总结

核心理念
传统的 "你是一个有用的编程助手" 这类模糊指令并不有效,真正起作用的是具体的角色定义,例如明确说明"你是一位测试工程师,专门为 React 组件编写测试,遵循特定示例,且绝不修改源代码"。

agents. md 文件的作用是定义智能体的完整工作手册:角色定位、技术栈知识、项目文件结构、工作流程、可执行命令、代码风格示例,以及最重要的——明确的操作边界。

五个关键要素
通过分析发现,成功的 agents. md 文件普遍遵循以下实践:
1. 命令前置
将可执行命令放在文件前部,包含完整的命令参数和选项,例如 npm test、pytest -v,而不仅仅是工具名称。
2. 用代码示例代替文字说明
一个真实的代码片段比三段描述性文字更有效。直接展示期望的输出样式。
3. 设定清晰边界
明确告知 AI 哪些内容绝对不能触碰,如敏感信息、vendor 目录、生产配置等。"永远不要提交密钥"是最常见的有效约束。
4. 具体说明技术栈
应该写"React 18 + TypeScript,使用 Vite 和 Tailwind CSS",而非笼统的"React 项目",需包含版本号和关键依赖。
5. 覆盖六大核心领域
命令、测试、项目结构、代码风格、Git 工作流和操作边界——覆盖这些领域能让你的配置文件进入顶级水平。

实战示例
提供了一个文档智能体的完整配置示例,展示了如何将上述原则应用到实际场景。该配置包括:
· 明确角色定位:技术文档专家,精通 Markdown 和 TypeScript
· 项目知识:具体的技术栈版本和文件目录结构
· 可用命令:npm run docs:build 和 npx markdownlint docs/
· 三级边界系统:总是做什么、需要先询问什么、绝对禁止什么

几种值得构建的专用智能体
@ docs-agent:读取代码生成文档,只写入 docs/ 目录
@ test-agent:编写测试,不能删除失败的测试用例
@ lint-agent:修复代码格式,不改变逻辑
@ api-agent:构建 API 端点,修改数据库架构前需询问
@ dev-deploy-agent:处理本地构建和部署,仅限开发环境

实施建议
从简单任务开始,不要试图构建"通用助手"。选择具体任务如编写函数文档、添加单元测试或修复代码检查错误。
最精简的配置只需三个要素:智能体名称、简短描述和具体角色定位。你也可以让 Copilot 帮助生成初始配置,然后根据实际项目调整。

核心启示
最优秀的智能体配置文件是通过迭代逐步完善的,而非一次性规划完成。从简单配置开始,测试运行,当智能体出错时再添加更多细节。成功的关键在于提供具体的角色定位和详细的操作手册,而非模糊的提示词。

博客地址:

如何编写优秀的 agents. md:来自 2500+ 代码库的经验总结 核心理念 传统的 "你是一个有用的编程助手" 这类模糊指令并不有效,真正起作用的是具体的角色定义,例如明确说明"你是一位测试工程师,专门为 React 组件编写测试,遵循特定示例,且绝不修改源代码"。 agents. md 文件的作用是定义智能体的完整工作手册:角色定位、技术栈知识、项目文件结构、工作流程、可执行命令、代码风格示例,以及最重要的——明确的操作边界。 五个关键要素 通过分析发现,成功的 agents. md 文件普遍遵循以下实践: 1. 命令前置 将可执行命令放在文件前部,包含完整的命令参数和选项,例如 npm test、pytest -v,而不仅仅是工具名称。 2. 用代码示例代替文字说明 一个真实的代码片段比三段描述性文字更有效。直接展示期望的输出样式。 3. 设定清晰边界 明确告知 AI 哪些内容绝对不能触碰,如敏感信息、vendor 目录、生产配置等。"永远不要提交密钥"是最常见的有效约束。 4. 具体说明技术栈 应该写"React 18 + TypeScript,使用 Vite 和 Tailwind CSS",而非笼统的"React 项目",需包含版本号和关键依赖。 5. 覆盖六大核心领域 命令、测试、项目结构、代码风格、Git 工作流和操作边界——覆盖这些领域能让你的配置文件进入顶级水平。 实战示例 提供了一个文档智能体的完整配置示例,展示了如何将上述原则应用到实际场景。该配置包括: · 明确角色定位:技术文档专家,精通 Markdown 和 TypeScript · 项目知识:具体的技术栈版本和文件目录结构 · 可用命令:npm run docs:build 和 npx markdownlint docs/ · 三级边界系统:总是做什么、需要先询问什么、绝对禁止什么 几种值得构建的专用智能体 @ docs-agent:读取代码生成文档,只写入 docs/ 目录 @ test-agent:编写测试,不能删除失败的测试用例 @ lint-agent:修复代码格式,不改变逻辑 @ api-agent:构建 API 端点,修改数据库架构前需询问 @ dev-deploy-agent:处理本地构建和部署,仅限开发环境 实施建议 从简单任务开始,不要试图构建"通用助手"。选择具体任务如编写函数文档、添加单元测试或修复代码检查错误。 最精简的配置只需三个要素:智能体名称、简短描述和具体角色定位。你也可以让 Copilot 帮助生成初始配置,然后根据实际项目调整。 核心启示 最优秀的智能体配置文件是通过迭代逐步完善的,而非一次性规划完成。从简单配置开始,测试运行,当智能体出错时再添加更多细节。成功的关键在于提供具体的角色定位和详细的操作手册,而非模糊的提示词。 博客地址:

邵猛,中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱:shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

avatar for meng shao
meng shao
Wed Nov 26 00:44:54
RT @SarahChieng: it's your classic late night coffeeshop, but the coffee bar's free and we hired jump scare actors

but let's be real. noth…

RT @SarahChieng: it's your classic late night coffeeshop, but the coffee bar's free and we hired jump scare actors but let's be real. noth…

achieve ambition with intentionality, intensity, & integrity - @dxtipshq - @sveltesociety - @aidotengineer - @latentspacepod - @cognition + @smol_ai

avatar for swyx
swyx
Wed Nov 26 00:42:40
昨天晚点发了一篇关于 MiniMax 和月之暗面的长文。
感觉中国大模型创业公司是被夹在两块铁板中间。
一边是几千亿美金估值、几百亿美金预算的 OpenAI / Anthropic / xAI,另一边是有电商、广告、量化现金流喂模型的阿里、字节、腾讯、DeepSeek。
真不容易。
原文6000字,我文章一键转成了解说视频。

昨天晚点发了一篇关于 MiniMax 和月之暗面的长文。 感觉中国大模型创业公司是被夹在两块铁板中间。 一边是几千亿美金估值、几百亿美金预算的 OpenAI / Anthropic / xAI,另一边是有电商、广告、量化现金流喂模型的阿里、字节、腾讯、DeepSeek。 真不容易。 原文6000字,我文章一键转成了解说视频。

聊硅基 AI,看有机 Orange。

avatar for Orange AI
Orange AI
Wed Nov 26 00:36:55
I really like this graph from a data visualization standpoint. Y-axis is reduced to the relevant bits, differences are clearly visible (and would be lost in 1-100%. Even has a little indicator showing that axis is shortened.

I really like this graph from a data visualization standpoint. Y-axis is reduced to the relevant bits, differences are clearly visible (and would be lost in 1-100%. Even has a little indicator showing that axis is shortened.

Building https://t.co/od97B0HVrk and https://t.co/666FnyVVE0 in Public. Raising all the boats with kindness. 🎙️ https://t.co/6w69DZmi8H · ✍️ https://t.co/lpnor5rsTW

avatar for Arvid Kahl
Arvid Kahl
Wed Nov 26 00:35:08
  • Previous
  • 1
  • More pages
  • 2349
  • 2350
  • 2351
  • More pages
  • 5635
  • Next