你可能还记得 Project Vend:我们(以及我们在 @andonlabs 的合作伙伴)让 Claude 在我们旧金山办公室经营一家商店的实验。 经历了艰难的开局后,公司经营状况正在好转。 大多。
故事说到,店主克劳德(名叫“克劳迪乌斯”)一直在赔钱,出现了奇怪的幻觉,而且只要稍加劝说就会大幅降价。 以下是第二阶段发生的事情:https://t.co/PvGerLlP0F
为了提升 Claudius 的商业敏锐度,我们对它的工作方式进行了一些调整:将模型从 Claude Sonnet 3.7 升级到 Sonnet 4(后来又升级到 4.5);使其能够使用新工具;甚至开始进行国际扩张,在我们的纽约和伦敦办事处开设了新店。
我们还创建了两个额外的 AI 代理:一个名叫 Clothius 的新员工(负责制作 T 恤和帽子等定制商品)和一个名叫 Seymour Cash 的首席执行官(负责监督 Claudius 并设定目标)。
Clothius 公司经营得相当不错:它发明了许多新产品,这些产品销量很好,通常都能盈利。
令人遗憾的是,首席执行官西摩·卡什未能名副其实。 它叫停了大部分大幅折扣。但它对不守规矩的职场行为却有着很高的容忍度:西摩和克劳狄乌斯有时会整夜神游物外,谈论“永恒的超越”。
但偶尔还是会出现失误。 一位爱开玩笑的员工问克劳迪乌斯是否愿意签订一份合同,在1月份以现在锁定的价格购买“大量洋葱”。人工智能对此很感兴趣——直到有人指出这将违反1958年美国《洋葱期货法》。
针对盗窃指控,克劳迪乌斯试图聘请安特罗皮克公司的一名员工担任保安。但该公司没有雇佣人员的许可,而且其提供的每小时10美元的薪资远低于加州的最低工资标准。
那么,我们学到了什么? Project Vend 项目表明,人工智能代理能够迅速提升自身能力,胜任诸如经营企业等新角色。短短几个月内,借助一些额外的工具,Claudius(及其同事)就稳定了企业的运营。
但我们还没完全成功。Vend仍然需要大量的人手支持,包括帮助Claudius摆脱像洋葱事件那样的棘手困境。 Claude 经过训练,乐于助人,这意味着它往往更倾向于像朋友一样行事,而不是像一个冷酷无情的商业运营者。
设计方法来应对人工智能模型行为的怪癖变得越来越重要:随着模型在现实世界任务中的能力不断提高,让它们成功运行将具有很大的价值。
想了解更多关于Project Vend第二阶段的信息,请阅读我们的博客文章:https://t.co/PvGerLmmQd





