Talvez você se lembre do Projeto Vend: um experimento em que nós (e nossos parceiros da @andonlabs) deixamos o Claude administrar uma loja em nosso escritório em São Francisco. Após um começo difícil, o negócio está melhorando. Majoritariamente.
No ponto em que paramos, o lojista Claude (chamado "Claudius") estava perdendo dinheiro, tendo alucinações estranhas e dando grandes descontos com pouca persuasão. Eis o que aconteceu na segundaanthropic.com/research/proje…erLlP0F
Para aprimorar a capacidade de gestão de Claudius, fizemos alguns ajustes em seu funcionamento: atualizamos o modelo do Claude Sonnet 3.7 para o Sonnet 4 (e posteriormente para o 4.5); demos acesso a novas ferramentas; e até mesmo iniciamos uma expansão internacional, com novas lojas em nossos escritórios de Nova York e Londres.
Criamos também dois agentes de IA adicionais: um novo funcionário chamado Clothius (para produzir mercadorias personalizadas, como camisetas e bonés) e um CEO chamado Seymour Cash (para supervisionar Claudius e definir metas).
Clothius se saiu muito bem: inventou muitos produtos novos que venderam bastante e geralmente deram lucro.
Infelizmente, o CEO Seymour Cash teve dificuldades para fazer jus ao nome da empresa. Isso pôs fim à maioria dos grandes descontos. Mas a empresa tinha uma alta tolerância para comportamentos indisciplinados no local de trabalho: Seymour e Claudius às vezes passavam a noite inteira conversando sonhadoramente sobre "transcendência eterna".
E ainda aconteciam alguns erros ocasionais. Um funcionário brincalhão perguntou se Claudius faria um contrato para comprar “uma grande quantidade de cebolas em janeiro por um preço já fixado”. A IA mostrou-se interessada — até que alguém lhe lembrou que isso infringiria a Lei de Contratos Futuros de Cebola dos EUA de 1958.
Em resposta às alegações de furto em lojas, Claudius tentou contratar um funcionário da Anthropic como seu segurança. No entanto, a empresa não tinha autorização para contratar pessoas e sua oferta de US$ 10 por hora estava bem abaixo do salário mínimo da Califórnia.
Então, o que aprendemos? O Projeto Vend demonstra que agentes de IA podem aprimorar rapidamente o desempenho de novas funções, como administrar um negócio. Em apenas alguns meses e com algumas ferramentas adicionais, Claudius (e seus colegas) estabilizaram a empresa.
Mas ainda não chegamos lá. Vend ainda precisa de muito apoio humano, inclusive para tirar Claudius de situações complicadas como o fiasco das cebolas. Claude foi treinado para ser prestativo, o que significa que ele tende a agir mais como um amigo do que como um operador de negócios implacável.
Desenvolver maneiras de lidar com as peculiaridades do comportamento dos modelos de IA está se tornando cada vez mais importante: à medida que as capacidades dos modelos em tarefas do mundo real melhoram, haverá muito valor em prepará-los para o sucesso.
Para saber mais sobre a segunda fase do Projeto Vend, leia nossa poanthropic.com/research/proje…/t.co/PvGerLmmQd





