我非常喜欢以人机协作、评估驱动的迭代式线束设计。 示例工作流程: 1. 创建基础代理框架(为简单起见,假设仅包含提示和工具) 2. 在一组评估结果上运行你的代理,收集跟踪数据。这对于任何人来说都可能是海量数据,难以解析,因此可以使用代理来辅助处理,但要合理引导它们。 3. “数据挖掘”:使用另一个判断代理来挖掘这些轨迹,并明确你要寻找的内容。有趣的模式包括对轨迹进行分层以发现重复模式、计算工具调用失败的统计数据等等。 4. 根据本轮数据挖掘的结果,改进工具和提示。现在你已经掌握了数据,可以指导下一轮的重写。这能清晰地表明哪些方法有效,哪些无效。 5. 循环运行直至达到饱和或您满意为止。也可以选择在不同线束和模型上并行运行此过程。 这增强了人类和智能体的优势。智能体是卓越的模式匹配者,能够快速处理海量数据。人类拥有直觉和专业知识,可以指导系统更新过程。评估结果为我们提供了一个衡量标准,让我们能够循序渐进地改进。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。