你可能還記得 Project Vend:我們(以及我們在 @andonlabs 的合作夥伴)讓 Claude 在我們舊金山辦公室經營一家商店的實驗。 經歷了艱難的開局後,公司經營狀況正在好轉。 大多。
故事說到,店主克勞德(名叫「克勞狄烏斯」)一直在賠錢,出現了奇怪的幻覺,而且只要稍加勸說就會大幅降價。 以下是第二階段發生的事情:https://t.co/PvGerLlP0F
為了提升 Claudius 的商業敏銳度,我們對它的工作方式進行了一些調整:將模型從 Claude Sonnet 3.7 升級到 Sonnet 4(後來又升級到 4.5);使其能夠使用新工具;甚至開始進行國際擴張,在我們的紐約和倫敦辦事處開設了新店。
我們還創建了兩個額外的 AI 代理:一個名叫 Clothius 的新員工(負責製作 T 恤和帽子等定製商品)和一個名叫 Seymour Cash 的首席執行官(負責監督 Claudius 並設定目標)。
Clothius 公司經營得相當不錯:它發明了許多新產品,這些產品銷售得很好,通常都能獲利。
令人遺憾的是,執行長西摩·卡什未能名副其實。 它叫停了大部分大幅折扣。但它對不守規矩的職場行為卻有著很高的容忍度:西摩和克勞狄烏斯有時會整夜神遊物外,談論「永恆的超越」。
但偶爾還是會出現失誤。 一位開玩笑的員工問克勞迪烏斯是否願意簽訂一份合同,在1月份以現在鎖定的價格購買「大量洋蔥」。人工智慧對此很感興趣——直到有人指出這將違反1958年美國《洋蔥期貨法》。
針對竊盜指控,克勞迪烏斯試圖聘請安特羅皮克公司的一名員工擔任保全。但該公司沒有僱用人員的許可,而且其提供的每小時10美元的薪資遠低於加州的最低工資標準。
那麼,我們學到了什麼? Project Vend 專案表明,人工智慧代理能夠迅速提升自身能力,勝任諸如經營企業等新角色。短短幾個月內,借助一些額外的工具,Claudius(及其同事)就穩定了企業的營運。
但我們還沒完全成功。 Vend仍然需要大量的人手支持,包括幫助Claudius擺脫像洋蔥事件那樣的棘手困境。 Claude 經過訓練,樂於助人,這意味著它往往更傾向於像朋友一樣行事,而不是像一個冷酷無情的商業經營者。
設計方法來應對人工智慧模型行為的怪癖變得越來越重要:隨著模型在現實世界任務中的能力不斷提高,讓它們成功運作將具有很大的價值。
想了解更多關於Project Vend第二階段的信息,請閱讀我們的部落格文章:https://t.co/PvGerLmmQd





