탐색 | Thread Easy - 트위터 스레드 펼치기 | 리더, 요약, 작성

5-Day AI Agents Intensive Course with Google (4/5) 第四天白皮书来了「Agent Quality」 https://t.co/vDSBpirKmG 智能体从原型到生产部署的质量保障关键问题 · 70%+ 智能体生产失败 · 常见痛点：幻觉、工具误用、上下文丢失评估框架（三层） · 核心能力：规划、工具调用、记忆 · 执行轨迹：顺序正确性（in-order match） · 最终输出：精确匹配 + LLM 自动评判核心方法 · 自动评判器：快速评分一致性 · Human in the loop：校准主观质量 · 轨迹监控：实时定位问题关键发现 · 多智能体协作 → 错误率 ↓30% · 记忆模块 → 质量 ↑25% · 无评估部署 → 失败率达 60% · 生产指标：成功率 >85%、延迟 < 5s/步建议 · Agent Ops：全链路质量管理（设计→监控→迭代） · 数据优先：用 Kaggle 高质数据集防偏差

邵猛，中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱：shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

meng shao

Thu Nov 13 07:59:13

如何高效掌握 LLM 构建等技术书籍 —— 来自「Build a Large Language Model From Scratch」作者 @rasbt 的实用建议！核心步骤：五步走，层层递进 Raschka 将过程分解为五个阶段，强调“质量胜于数量”——宁愿慢下来，也要真正内化知识。 1. 首次阅读：专注浸润，避免干扰建议在离线环境下阅读章节（如纸质书或无网设备），营造“专注时段”。可以高亮或标注困惑/有趣点，但暂不查阅资料或运行代码。这步像“被动吸收”，目的是建立整体框架，而非纠结细节。Raschka 指出，互联网时代让人分心过多，离线阅读能显著提升效率。 2. 第二次阅读：动手实践代码手动输入章节代码，并运行它。这虽费时，但能加深对代码逻辑的思考。如果结果与书中不符，先查 GitHub 仓库；若仍差异，排查环境因素（如包版本、随机种子、CPU/GPU）。必要时，可通过论坛、Issue 或邮件咨询作者。这步桥接理论与实践，帮助发现潜在问题。 3. 练习巩固：检验独立能力完成章节练习题。这是“检验时刻”——它验证你是否真正理解，能否独立应用概念，而非仅停留在表面。 4. 回顾与扩展：整理与深化梳理高亮和注释，提取关键 takeaways（如项目相关点），并存入笔记工具（如 Obsidian）。同时，针对未解疑问，进行在线搜索或追读参考文献。这步像“知识整理”，从碎片化笔记转为系统化资源。 5. 应用输出：项目落地最后，将所学融入实际项目中——不限于核心概念，甚至小技巧（如 PyTorch 中显式设置 MPS 种子）也能带来价值。这强调学习不是终点，而是服务于创造的手段。

邵猛，中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱：shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

meng shao

Thu Nov 13 07:52:38

[开源推荐] Stripe AI：构建 AI 驱动支付产品的开源工具，它把 Stripe 的支付与计费基础设施无缝集成到 LLM 和智能体框架中，帮助开发者轻松创建能够处理金融任务的智能系统。核心目的与优势项目的核心目标是让 AI 智能体能够安全、高效地调用 Stripe API，实现自动化支付流程。例如，一个智能体可以通过自然语言指令创建支付链接、处理计费或管理连接账户，而无需从零编写底层集成。这特别适用于电商、客户支持或多租户应用场景，降低了 AI 在金融领域的开发门槛，同时强调安全性（如通过 OAuth 保护的远程访问）。关键组件 · @ stripe/agent-toolkit：这是项目的主力工具包，支持 Python 和 TypeScript。它将 Stripe API 封装成智能体可调用的“工具”，兼容 OpenAI 的 Agent SDK、LangChain、CrewAI 和 Vercel 的 AI SDK。通过函数调用机制，智能体可以执行特定动作，如生成支付链接或查询计费状态。开发者只需配置 Stripe 密钥和允许的操作，即可快速集成。 · @ stripe/ai-sdk：专注于将 Stripe 计费与 Vercel 的 AI 库结合，便于 Web 应用中的 AI 交互。 · @ stripe/token-meter：一个轻量级组件，用于将 Stripe 计费直接与 OpenAI、Anthropic 或 Google Gemini 等 LLM 提供商对接，无需额外框架依赖，支持基于令牌的计费模式。 · MCP：Stripe 提供远程 MCP 服务器，允许智能体以标准化格式访问工具；本地服务器也可通过 npm 运行，支持全工具集。这些组件构建在 Stripe 官方 SDK 基础上，确保稳定性和合规性，尤其在金融敏感操作中突出多租户支持（如为连接账户传递上下文）。开源地址

邵猛，中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱：shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

meng shao

Thu Nov 13 07:43:24

[开源推荐] Multi-Agent Research System: Anthropic 开源的基于 Claude Agent SDK 的演示项目，模拟“深度研究”流程：通过多个 AI 智能体协作，高效处理复杂主题的研究和报告生成。系统核心组件系统定义了两种主要子智能体，均使用 Claude Haiku 模型驱动： · 研究智能体（Researcher）：负责分解主题并搜索信息。工具包括 WebSearch（网页搜索）和 Write（写入笔记）。它将研究结果保存到 files/research_notes 文件夹中，支持并行执行多个实例。 · 报告撰写智能体（Report-Writer）：负责整合研究笔记，生成最终输出。工具包括 Read（读取文件）和 Write to Glob（全局写入报告）。它从 files/reports 文件夹中读取并合成内容。工作流程 1. 主题分解：用户输入研究查询，主智能体自动拆分为 2-4 个子主题（例如，“AI 伦理”可拆为“历史发展”“当前挑战”“未来趋势”）。 2. 并行研究：为每个子主题启动一个 Researcher 智能体，同时进行网页搜索并记录关键发现到独立文件，避免信息丢失。 3. 信息整合：主智能体扫描研究笔记，确保覆盖完整性。 4. 报告生成：启动 Report-Writer 智能体，读取所有笔记，合成结构化报告（如 Markdown 或扩展为 PPT/网页），保存到 files/reports。 5. 输出：用户获得一份综合报告，支持迭代修改。优势与扩展性 · 高效性：并行智能体加速研究，适用于学术、商业或内容创作场景。 · 客观性：依赖事实搜索和合成，减少主观偏差。 · 自定义潜力：可扩展工具（如添加 PowerPoint 生成或数据可视化），或集成其他 Claude 功能。开源地址

邵猛，中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱：shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

meng shao

Thu Nov 13 07:36:08

RT @Sumanth_077: Test and detect security issues in your LLM Apps! (100% open-source and locally) DeepTeam is an open-source LLM red team…

邵猛，中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱：shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

meng shao

Thu Nov 13 02:06:21

Cursor 最受欢迎和最快增长 AI 模型排行（2025.11 和 2025.04 对比）半年时间，AI 模型的发展确实经历了翻天覆地的变化，两个榜单都是完全不重合的。 Sonnet 4.5 还是最受欢迎的最强编程模型，很多开源模型都在不断靠近它，但还是不能超越。 Composer 1 这个 Cursor 自家孩子，增长很快，它本身速度也够快，相信 Cursor 团队的 RL 会让它越来越好用，期待。 Gemini 2.5 有些断代了，Gemini 3 跳票让 Gemini 的先发劣势不断显现。 Grok Code Fast 1 的增长最近也有些放缓，老马在编程模型上还会继续发力，传 Grok 也要发 Crok Code 了？ Kimi、GLM 和 Qwen 等开源模型的编程能力也越来越强了，不过可能还是模型供应商方面的问题，使用量没有真的起来，OpenRouter 等的用量也不太理想。

邵猛，中年失业程序员 😂 专注 - Context Engineering, AI Agents. 分享 - AI papers, apps and OSS. ex Microsoft MVP 合作 - 私信/邮箱：shaomeng@outlook.com 📢 公众号/小红书: AI 启蒙小伙伴

meng shao

Thu Nov 13 01:37:34

탐색

Newest first — browse tweet threads

탐색

Newest first — browse tweet threads

RT @Sumanth_077: Test and detect security issues in your LLM Apps! (100% open-source and locally) DeepTeam is an open-source LLM red team…