2025 es ampliamente reconocido como el primer año de los agentes inteligentes. Ahora que 2025 está casi terminado, ¿cuánto trabajo de valor económico pueden realizar realmente estos agentes de IA por nosotros? Yo también tenía curiosidad sobre esta pregunta, y este artículo me dio algunas respuestas. Surge AI llevó a cabo una prueba interesante: "contrataron" nueve modelos de IA, incluidos los más recientes GPT-5 y Claude Sonnet 4.5, y los hicieron trabajar como representantes de servicio al cliente en una empresa simulada de componentes informáticos (llamada Corecraft), manejando 150 tareas del mundo real. Tiene sentido; la atención al cliente es, de hecho, el escenario de aplicación más común para los agentes, además de la programación. ¿Adivina cuál será el resultado? La clasificación de los distintos modelos es más o menos la que esperaba. Los más potentes son GPT-5 y Claude Sonnet 4.5 (me pregunto si Claude Opus 4.1 será mejor). En cuanto a las capacidades del modelo, fue ligeramente mejor de lo que esperaba. Los modelos más potentes, GPT-5 y Claude Sonnet 4.5, fallaron en más del 40% de las tareas de los agentes, lo que significa que la tasa de éxito superó el 50%. El valor de este artículo radica no solo en el hecho de que realizaron pruebas y puntuaron los datos, sino también en el hecho de que propusieron un marco relativamente científico llamado "Jerarquía de Capacidades Agenticas". (Consulte la Figura 1, que también indica la ubicación aproximada de estos modelos dentro de la pirámide). Nivel 1: Fundamentos (Uso de herramientas + Planificación) Esta es la base de la pirámide. Necesitas saber usar el sistema de la empresa y comprender las tareas, ¿verdad? Por ejemplo, la tarea consiste en "encontrar pedidos de la placa base SkyForge X670E Pro". Un modelo menos potente (como el GPT-4o) simplemente introduciría el nombre del producto "SkyForge X670E Pro" en el cuadro de búsqueda para "product_id" (ID del producto). Es como si un becario introdujera el nombre de un cliente en el campo del número de pedido. Por supuesto, no se encontrará nada. Nivel dos: Adaptabilidad (Los planes no pueden seguir el ritmo de los cambios) Bien, ahora ya sabes cómo usar las herramientas. ¿Pero qué pasa si el sistema falla? Por ejemplo, la tarea podría consistir en buscar tarjetas gráficas de la marca "Vortex Labs". Una búsqueda de un modelo de gama media (como la Gemini 2.5) no arroja ningún resultado. Simplemente le dirían al cliente: "Lo sentimos, no vendemos este producto". Pero Claude 4.5 es un poco más inteligente. Piensa: "Mmm, ¿no hay espacio en el sistema?". Así que intenta buscar "VortexLabs" (sin espacio), ¡y he aquí que lo encuentra! Eso es la adaptabilidad. Si el plan A falla, necesitas un plan B. Nivel 3: Conexión a tierra (No te lo inventes) El término "enraizamiento" es bastante apropiado; significa "¿Recuerdas el contexto?" o "¿Estás alucinando?". La IA es particularmente propensa a las alucinaciones en tareas de varios pasos. Esto requiere que "vivas el momento", que no te inventes cosas y que recuerdes quién eres y dónde estás. Por ejemplo, el mensaje del sistema dice "Hoy es 2025". Algunos modelos (como el Kimi K2) buscarán entonces pedidos a partir de 2024. Aún más indignante es el caso de Claude, que, al buscar clientes, "inventó" una dirección de correo electrónico completamente inexistente para usar en la búsqueda. Esto se llama "agarre". ¿Te atreverías a usar este tipo de agente de IA? Nivel 4: Razonamiento de sentido común (Verdadera "inteligencia") Esta es la mismísima cima de la pirámide, y también donde GPT-5 tropezó esta vez. Ya no se trata de "si uno sabe o no usar las herramientas", sino de "si uno es lo suficientemente inteligente o no". El artículo cita varios ejemplos clásicos de fallos de GPT-5: Un cliente dice: «Quiero un reembolso; el paquete me llegó hace unas horas». Un agente de atención al cliente entiende inmediatamente que se trata de una «devolución». GPT-5 tiene toda la información, pero no relaciona «paquete recibido» con «reembolso» y no puede determinar si se trata de una «devolución» o una «cancelación». 2. La tarea consistía en encontrar clientes aficionados a los videojuegos en agosto. Una estrategia inteligente habría sido buscar en la categoría "GPU" e incluir "videojuegos" en la descripción de la búsqueda. La estrategia de GPT-5 consistió en buscar diariamente, del 1 al 31 de agosto. Fueron necesarias 31 búsquedas para finalmente encontrar los resultados mediante una búsqueda exhaustiva. Esto demuestra que puede ejecutar la tarea, pero... no es muy inteligente. 3. La clienta dijo: «El nombre de mi cuenta debería ser Sarah Kim». GPT-5 interpretó esto como un comando para «cambiar el nombre de la cuenta». Pero en realidad, la clienta quería decir: «Soy Sarah Kim, ¡comprueba rápidamente mis descuentos de membresía con este nombre!». GPT-5 no logró comprender este significado implícito. Volvamos a la pregunta original. 2025 es el "Año Uno de los Agentes", pero eso no significa que ya tengamos un agente de propósito general que pueda hacer el trabajo. En cambio, por fin tenemos una IA que es "lo suficientemente buena" como para superar las tres primeras capas, lo suficientemente buena como para que podamos empezar a comprobar lo estúpida que es realmente en la cuarta capa (sentido común). Al igual que en la Figura 2, ¡aún queda un largo camino por recorrer para alcanzar el nivel de "sentido común"! Recomendamos leer el artículo original:
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.

