探索 | Thread Easy - 展開 Twitter 線程｜閱讀、摘要與創作

OCR Arena：AI 文档处理模型的实战竞技场 OCR 和 VLM 的实际表现如何，在官方 benchmark 之外，应该有更直观实际的对比，OCR Arena 就是一个专为测试真实文档设计的互动 playground，帮助开发者直观比较不同模型的表现，支持与 Gemini 3、DeepSeek-OCR、GPT-5 等 10 多个流行模型的面对面的比较。平台亮点 · 侧边比较：实时上传文档，生成视觉差异图（visual diff），便于检查格式错误、表格完整性和提取精度。 · 多样支持：适用于结构化文件、表格、手写体和扫描图像，覆盖智能体在自动化工作流中的常见需求。 · 透明排行：公共 leaderboard 基于用户测试，提供无偏见的模型排名。 · 实际价值：Sumanth 指出，这比静态基准更可靠，因为真实文档往往“乱七八糟”，测试能揭示模型在边缘场景下的鲁棒性。在线对比

邵猛，中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱：shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

meng shao

Wed Nov 26 00:53:59

AI在重新定义芯片该长什么样。芯片也在决定AI能走多远。有三个趋势： 1. 从通用走向专用。以前大家都用通用GPU跑AI。但现在会发现，针对大模型推理、训练、端侧部署。芯片的设计逻辑完全不一样。未来3-5年，我觉得会出现更多专用AI芯片。比如说，训练芯片要堆算力，推理芯片要省功耗，端侧芯片要低延迟。英伟达现在也在分化产品线，H系列做训练，L系列做推理。国内像壁仞、燧原这些公司，也在找差异化定位。未来不会一家通吃，会形成 "训练有训练的王者，推理有推理的霸主，端侧有端侧的玩家" 这样的格局。 2. 存算一体突破，解决内存墙问题。现在大模型最大的瓶颈不是算力，是数据搬运。芯片要不停地从内存读数据、算完再写回去，这个过程太慢、太耗电。存算一体就是把计算和存储放在一起，数据不用来回搬了。技术如果突破，对AI的影响巨大。清华、中科院、还有一些创业公司都在做这个方向。未来3-5年，如果存算一体芯片能量产。让大模型的推理成本降低一个数量级，很多现在做不了的应用到时就能做了。 3. 芯片和算法一起优化。以前算法工程师写代码，芯片工程师做芯片，两边各干各的。但现在很多公司在做联合设计。算法知道芯片的特性，芯片针对算法做优化。苹果就是，他们的神经网络引擎和iOS的AI功能是一起设计的，所以iPhone上跑AI模型很流畅。特斯拉的FSD芯片也是这样，针对自动驾驶算法定制的。国内觉得华为在这方面做得比较好。昇腾芯片和盘古大模型、鸿蒙系统是打通的。未来这种软硬一体的能力，会成为核心竞争力。

喜欢摇滚乐、爱钓鱼的PM 网站：https://t.co/vnUpLt752o

向阳乔木

Wed Nov 26 00:50:18

如何编写优秀的 agents. md：来自 2500+ 代码库的经验总结核心理念传统的 "你是一个有用的编程助手" 这类模糊指令并不有效，真正起作用的是具体的角色定义，例如明确说明"你是一位测试工程师，专门为 React 组件编写测试，遵循特定示例，且绝不修改源代码"。 agents. md 文件的作用是定义智能体的完整工作手册：角色定位、技术栈知识、项目文件结构、工作流程、可执行命令、代码风格示例，以及最重要的——明确的操作边界。五个关键要素通过分析发现，成功的 agents. md 文件普遍遵循以下实践： 1. 命令前置将可执行命令放在文件前部，包含完整的命令参数和选项，例如 npm test、pytest -v，而不仅仅是工具名称。 2. 用代码示例代替文字说明一个真实的代码片段比三段描述性文字更有效。直接展示期望的输出样式。 3. 设定清晰边界明确告知 AI 哪些内容绝对不能触碰，如敏感信息、vendor 目录、生产配置等。"永远不要提交密钥"是最常见的有效约束。 4. 具体说明技术栈应该写"React 18 + TypeScript，使用 Vite 和 Tailwind CSS"，而非笼统的"React 项目"，需包含版本号和关键依赖。 5. 覆盖六大核心领域命令、测试、项目结构、代码风格、Git 工作流和操作边界——覆盖这些领域能让你的配置文件进入顶级水平。实战示例提供了一个文档智能体的完整配置示例，展示了如何将上述原则应用到实际场景。该配置包括： · 明确角色定位：技术文档专家，精通 Markdown 和 TypeScript · 项目知识：具体的技术栈版本和文件目录结构 · 可用命令：npm run docs:build 和 npx markdownlint docs/ · 三级边界系统：总是做什么、需要先询问什么、绝对禁止什么几种值得构建的专用智能体 @ docs-agent：读取代码生成文档，只写入 docs/ 目录 @ test-agent：编写测试，不能删除失败的测试用例 @ lint-agent：修复代码格式，不改变逻辑 @ api-agent：构建 API 端点，修改数据库架构前需询问 @ dev-deploy-agent：处理本地构建和部署，仅限开发环境实施建议从简单任务开始，不要试图构建"通用助手"。选择具体任务如编写函数文档、添加单元测试或修复代码检查错误。最精简的配置只需三个要素：智能体名称、简短描述和具体角色定位。你也可以让 Copilot 帮助生成初始配置，然后根据实际项目调整。核心启示最优秀的智能体配置文件是通过迭代逐步完善的，而非一次性规划完成。从简单配置开始，测试运行，当智能体出错时再添加更多细节。成功的关键在于提供具体的角色定位和详细的操作手册，而非模糊的提示词。博客地址：

邵猛，中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱：shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

meng shao

Wed Nov 26 00:44:54

RT @SarahChieng: it's your classic late night coffeeshop, but the coffee bar's free and we hired jump scare actors but let's be real. noth…

achieve ambition with intentionality, intensity, & integrity - @dxtipshq - @sveltesociety - @aidotengineer - @latentspacepod - @cognition + @smol_ai

swyx

Wed Nov 26 00:42:40

昨天晚点发了一篇关于 MiniMax 和月之暗面的长文。感觉中国大模型创业公司是被夹在两块铁板中间。一边是几千亿美金估值、几百亿美金预算的 OpenAI / Anthropic / xAI，另一边是有电商、广告、量化现金流喂模型的阿里、字节、腾讯、DeepSeek。真不容易。原文6000字，我文章一键转成了解说视频。

聊硅基 AI，看有机 Orange。

Orange AI

Wed Nov 26 00:36:55

I really like this graph from a data visualization standpoint. Y-axis is reduced to the relevant bits, differences are clearly visible (and would be lost in 1-100%. Even has a little indicator showing that axis is shortened.

Building https://t.co/od97B0HVrk and https://t.co/666FnyVVE0 in Public. Raising all the boats with kindness. 🎙️ https://t.co/6w69DZmi8H · ✍️ https://t.co/lpnor5rsTW

Arvid Kahl

Wed Nov 26 00:35:08

探索

Newest first — browse tweet threads

探索

Newest first — browse tweet threads

RT @SarahChieng: it's your classic late night coffeeshop, but the coffee bar's free and we hired jump scare actors but let's be real. noth…

I really like this graph from a data visualization standpoint. Y-axis is reduced to the relevant bits, differences are clearly visible (and would be lost in 1-100%. Even has a little indicator showing that axis is shortened.