每个人都有一张自己最喜欢的《___状况报告》幻灯片,这张是我的! 可观测性 —> 评估 —> 改进 基本上: 1. 可观测性:我们希望改进智能体……所以我们必须知道它们实际在做什么。记录所有行为是一个不错的默认设置,如果以后没用了可以删除,但至少你可以查看它们。 2. 评估:我们有一些需要关注的任务,应该用这些任务测试我们的智能体,并随着获得更多反馈而扩展它们。 3. 改进:我们拥有能够处理海量数据并匹配模式的神奇机器,我们应该利用它们分析我们的数据,找出改进提示、技能、子代理等的方法…… 我的任务(如果我选择接受的话,而我已经接受了):将29.4%降到0%。 我过去(现在某种程度上也是)非常依赖“感觉”来编写代码和改进智能体。就是直接上手用,感受一下效果,然后尝试各种方法。 但是,利用代理分析代理轨迹来改进代理的这种模式也很好……实际上非常棒。 “看看你的数据”——@HamelHusain “别忘了保存你的数据,这样你就可以查看了”——我 这份报告的其他部分也包含许多有趣的信息,例如人们使用经纪人的实际目的。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。