X (Twitter)

我非常喜欢以人机协作、评估驱动的迭代式线束设计。示例工作流程： 1. 创建基础代理框架（为简单起见，假设仅包含提示和工具） 2. 在一组评估结果上运行你的代理，收集跟踪数据。这对于任何人来说都可能是海量数据，难以解析，因此可以使用代理来辅助处理，但要合理引导它们。 3. “数据挖掘”：使用另一个判断代理来挖掘这些轨迹，并明确你要寻找的内容。有趣的模式包括对轨迹进行分层以发现重复模式、计算工具调用失败的统计数据等等。 4. 根据本轮数据挖掘的结果，改进工具和提示。现在你已经掌握了数据，可以指导下一轮的重写。这能清晰地表明哪些方法有效，哪些无效。 5. 循环运行直至达到饱和或您满意为止。也可以选择在不同线束和模型上并行运行此过程。这增强了人类和智能体的优势。智能体是卓越的模式匹配者，能够快速处理海量数据。人类拥有直觉和专业知识，可以指导系统更新过程。评估结果为我们提供了一个衡量标准，让我们能够循序渐进地改进。

来自 Viv（@Vtrivedy10）的推文线程

作者信息

线程正文