L'année 2025 est largement considérée comme le début de l'ère des agents intelligents. Alors que 2025 touche à sa fin, quelle contribution économiquement utile ces agents d'IA pourront-ils réellement apporter ? Cette question m'intriguait également, et cet article m'a apporté quelques réponses. Surge AI a mené un test intéressant : ils ont « embauché » neuf modèles d'IA, dont les plus récents GPT-5 et Claude Sonnet 4.5, et les ont fait travailler comme représentants du service client dans une entreprise simulée de pièces informatiques (appelée Corecraft), gérant 150 tâches du monde réel. Cela paraît logique ; le service client est en effet le scénario d'application le plus courant pour les agents, mis à part le développement informatique. Devinez quel sera le résultat ? Le classement des différents modèles correspond à peu près à mes attentes. Les plus performants sont GPT-5 et Claude Sonnet 4.5 (je me demande si Claude Opus 4.1 sera meilleur). En termes de performances des modèles, les résultats étaient légèrement supérieurs à mes attentes. Les modèles les plus performants, GPT-5 et Claude Sonnet 4.5, ont échoué dans plus de 40 % des tâches des agents, ce qui signifie que le taux de réussite dépassait les 50 %. L'intérêt de cet article réside non seulement dans le fait qu'ils ont mené des tests et analysé les données, mais aussi dans le fait qu'ils ont proposé un cadre relativement scientifique appelé la « Hiérarchie des capacités agentiques ». (Se référer à la figure 1, qui indique également l'emplacement approximatif de ces modèles à l'intérieur de la pyramide.) Niveau 1 : Fondamentaux (Utilisation des outils + Planification) C'est la base de la pyramide. Vous devez être capable d'utiliser le système de l'entreprise et de comprendre les tâches, n'est-ce pas ? Par exemple, la tâche consiste à « trouver les commandes de la carte mère SkyForge X670E Pro ». Un modèle moins performant (tel que GPT-4o) se contenterait de saisir le nom du produit « SkyForge X670E Pro » dans le champ de recherche « product_id » (identifiant du produit). C'est comme si un stagiaire saisissait le nom d'un client dans le champ du numéro de commande. Évidemment, rien ne sera trouvé. Niveau deux : Adaptabilité (Les plans ne peuvent pas suivre le rythme des changements) Très bien, maintenant vous savez comment utiliser les outils. Mais que se passe-t-il si le système dysfonctionne ? Par exemple, la tâche pourrait consister à rechercher des cartes graphiques de la marque « Vortex Labs ». Une recherche pour un modèle de milieu de gamme (comme la Gemini 2.5) ne donne aucun résultat. Ils diraient simplement au client : « Désolé, nous ne vendons pas ce produit. » Mais Claude 4.5 est un peu plus malin. Il se dit : « Hmm, n'y a-t-il pas d'espace dans le système ? » Il tente donc de rechercher « VortexLabs » (pas d'espace), et miracle, il le trouve ! Voilà ce qu'est l'adaptabilité. Si le plan A échoue, il faut un plan B. Niveau 3 : Enracinement (N’inventez pas ça) Le terme « ancrage » est tout à fait approprié ; il signifie « Vous souvenez-vous du contexte ? » ou « Êtes-vous en train d'halluciner ? ». L'IA est particulièrement sujette aux hallucinations dans les tâches à plusieurs étapes. Cela exige de vous que vous « viviez l’instant présent », que vous ne vous inventiez rien, et que vous vous souveniez de qui vous êtes et où vous êtes. Par exemple, le message système indique « Nous sommes en 2025 ». Certains modèles (comme le Kimi K2) rechercheront alors les commandes passées en 2024. Le cas de Claude est encore plus scandaleux : lors de sa recherche de clients, la société a « inventé » une adresse électronique totalement inexistante. On appelle cela une « prise en main ». Oseriez-vous utiliser ce type d'agent IA ? Niveau 4 : Raisonnement de bon sens (Véritable « intelligence ») C’est tout en haut de la pyramide, et c’est aussi là que GPT-5 a trébuché cette fois-ci. Il ne s'agit plus de savoir « si l'on sait utiliser des outils », mais plutôt de savoir « si l'on est suffisamment intelligent ». L'article cite plusieurs exemples classiques d'échecs de GPT-5 : 1. Un client déclare : « Je souhaite un remboursement ; le colis est arrivé il y a quelques heures. » Un conseiller clientèle humain comprend immédiatement qu'il s'agit d'un « retour ». GPT-5 dispose de toutes les informations, mais ne fait pas le lien entre « arrivée du colis » et « remboursement », et ne parvient pas à déterminer s'il s'agit d'un « retour » ou d'une « annulation ». 2. La tâche consistait à « trouver des clients joueurs en août ». Une approche judicieuse aurait été de rechercher dans la catégorie « GPU » en incluant « jeux » dans la description de la recherche. GPT-5 a effectué une recherche quotidienne, du 1er au 31 août. Il lui a fallu 31 recherches pour finalement trouver les résultats grâce à une recherche exhaustive. Cela montre qu'il est capable d'exécuter la tâche, mais… ce n'est pas très « intelligent ». 3. Le client a déclaré : « Mon nom de compte devrait être Sarah Kim. » GPT-5 a interprété cela comme une commande de « changement de nom de compte ». En réalité, le client voulait dire : « Je suis Sarah Kim, consultez rapidement mes réductions d’abonnement avec ce nom ! » GPT-5 n’a pas saisi cette nuance. Revenons donc à la question initiale. 2025 est « l'année des agents », mais cela ne signifie pas que nous disposons déjà d'un agent polyvalent capable d'accomplir la tâche. Au lieu de cela, nous avons enfin une IA suffisamment performante pour passer les trois premières étapes, suffisamment performante pour que nous puissions commencer à tester sa véritable stupidité au quatrième niveau (le bon sens). Tout comme dans la figure 2, il reste encore un long chemin à parcourir pour atteindre le niveau du « bon sens » ! Nous vous recommandons de lire l'article original :
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.

