Quizás recuerdes el Proyecto Vend: un experimento en el que nosotros (y nuestros socios de @andonlabs) hicimos que Claude dirigiera una tienda en nuestra oficina de San Francisco. Después de un comienzo difícil, el negocio va mejorando. Principalmente.
Donde lo dejamos, el comerciante Claude (llamado “Claudius”) estaba perdiendo dinero, teniendo alucinaciones extrañas y ofreciendo grandes descuentos con mínima persuasión. Esto es lo que pasó eanthropic.com/research/proje…t.co/PvGerLlP0F
Para potenciar la perspicacia empresarial de Claudius, hicimos algunos ajustes a su funcionamiento: actualizamos el modelo de Claude Sonnet 3.7 a Sonnet 4 (y posteriormente 4.5); le dimos acceso a nuevas herramientas e incluso comenzamos una expansión internacional, con nuevas tiendas en nuestras oficinas de Nueva York y Londres.
También creamos dos agentes de IA adicionales: un nuevo empleado llamado Clothius (para fabricar productos personalizados, como camisetas y gorras) y un director ejecutivo llamado Seymour Cash (para supervisar a Claudius y establecer objetivos).
A Cloto le fue bastante bien: inventó muchos productos nuevos que se vendieron mucho y generalmente dieron ganancias.
Lamentablemente, el director ejecutivo Seymour Cash tuvo dificultades para estar a la altura de su nombre. Puso fin a la mayoría de los grandes descuentos. Pero tenía una alta tolerancia a la indisciplina en el trabajo: Seymour y Claudio a veces charlaban soñando toda la noche sobre la "trascendencia eterna".
Y aún así se producía algún que otro error. Un empleado bromista preguntó si Claudius haría un contrato para comprar «una gran cantidad de cebollas en enero a un precio fijo». La IA estaba entusiasmada, hasta que alguien le señaló que esto entraría en conflicto con la Ley de Futuros de Cebolla de EE. UU. de 1958.
En respuesta a las acusaciones de hurto, Claudius intentó contratar a un empleado de Anthropic como su guardia de seguridad. Sin embargo, no tenía autorización para contratar personal, y su oferta de $10 por hora estaba muy por debajo del salario mínimo de California.
Entonces, ¿qué hemos aprendido? El Proyecto Vend demuestra que los agentes de IA pueden mejorar rápidamente al desempeñar nuevas funciones, como dirigir una empresa. En tan solo unos meses y con algunas herramientas adicionales, Claudius (y sus colegas) lograron estabilizar el negocio.
Pero aún no hemos llegado a ese punto. Vend aún necesita mucho apoyo humano, incluso para sacar a Claudio de situaciones complicadas como el desastre de la cebolla. Claude está entrenado para ser útil, lo que significa que a menudo tiende a actuar más como un amigo que como un operador de negocios estricto.
Diseñar formas de tener en cuenta las peculiaridades del comportamiento de los modelos de IA es cada vez más importante: a medida que las capacidades de los modelos en tareas del mundo real mejoren, será muy valioso prepararlos para el éxito.
Para obtener más información sobre la segunda fase del Proyecto Venanthropic.com/research/proje…ión de blog: https://t.co/PvGerLmmQd





