X (Twitter)

你可能还记得 Project Vend：我们（以及我们在 @andonlabs 的合作伙伴）让 Claude 在我们旧金山办公室经营一家商店的实验。经历了艰难的开局后，公司经营状况正在好转。大多。

故事说到，店主克劳德（名叫“克劳迪乌斯”）一直在赔钱，出现了奇怪的幻觉，而且只要稍加劝说就会大幅降价。以下是第二阶段发生的事情：https://t.co/PvGerLlP0F

为了提升 Claudius 的商业敏锐度，我们对它的工作方式进行了一些调整：将模型从 Claude Sonnet 3.7 升级到 Sonnet 4（后来又升级到 4.5）；使其能够使用新工具；甚至开始进行国际扩张，在我们的纽约和伦敦办事处开设了新店。

我们还创建了两个额外的 AI 代理：一个名叫 Clothius 的新员工（负责制作 T 恤和帽子等定制商品）和一个名叫 Seymour Cash 的首席执行官（负责监督 Claudius 并设定目标）。

Clothius 公司经营得相当不错：它发明了许多新产品，这些产品销量很好，通常都能盈利。

令人遗憾的是，首席执行官西摩·卡什未能名副其实。它叫停了大部分大幅折扣。但它对不守规矩的职场行为却有着很高的容忍度：西摩和克劳狄乌斯有时会整夜神游物外，谈论“永恒的超越”。

但偶尔还是会出现失误。一位爱开玩笑的员工问克劳迪乌斯是否愿意签订一份合同，在1月份以现在锁定的价格购买“大量洋葱”。人工智能对此很感兴趣——直到有人指出这将违反1958年美国《洋葱期货法》。

针对盗窃指控，克劳迪乌斯试图聘请安特罗皮克公司的一名员工担任保安。但该公司没有雇佣人员的许可，而且其提供的每小时10美元的薪资远低于加州的最低工资标准。

那么，我们学到了什么？ Project Vend 项目表明，人工智能代理能够迅速提升自身能力，胜任诸如经营企业等新角色。短短几个月内，借助一些额外的工具，Claudius（及其同事）就稳定了企业的运营。

但我们还没完全成功。Vend仍然需要大量的人手支持，包括帮助Claudius摆脱像洋葱事件那样的棘手困境。 Claude 经过训练，乐于助人，这意味着它往往更倾向于像朋友一样行事，而不是像一个冷酷无情的商业运营者。

设计方法来应对人工智能模型行为的怪癖变得越来越重要：随着模型在现实世界任务中的能力不断提高，让它们成功运行将具有很大的价值。

想了解更多关于Project Vend第二阶段的信息，请阅读我们的博客文章：https://t.co/PvGerLmmQd

来自 Anthropic（@AnthropicAI）的推文线程