Le dernier livre blanc de Google, publié en novembre et intitulé « Introduction aux agents », sert de chapitre d'ouverture au « Cours intensif de 5 jours sur les agents IA Google x Kaggle », fournissant un cadre de référence allant de la preuve de concept aux systèmes d'agents prêts pour la production. Le dernier livre blanc de Google se concentre sur l'architecture fondamentale, la classification, les pratiques de construction, le déploiement en production, la gouvernance de la sécurité et l'apprentissage évolutif des agents d'IA. Il analyse objectivement la transformation de l'IA générative, passant de la prédiction passive à la résolution autonome de problèmes, et souligne que les agents constituent une extension naturelle des modèles de langage dans les logiciels, capables d'atteindre leurs objectifs par un raisonnement itératif, l'action et l'observation. L'argument principal du livre blanc est que la construction d'un agent intelligent ne se résume pas à l'intégration de modèles de langage, mais à la conception d'un système d'application complet qui exige un équilibre entre flexibilité et fiabilité. 1. De l'IA prédictive aux agents intelligents autonomes L'IA évolue des tâches passives (telles que la traduction ou la génération d'images) vers des agents autonomes : des systèmes capables de planifier et d'exécuter de manière indépendante des tâches complexes sans intervention humaine à chaque étape. Ces agents combinent les capacités de raisonnement des modèles de langage avec des outils d'action concrets, ce qui en fait « une évolution naturelle des modèles de langage, désormais utilisable dans les logiciels ». Le livre blanc souligne que le défi, du prototype à la production, réside dans la garantie de la sécurité, de la qualité et de la fiabilité. 2. Introduction aux agents intelligents Un agent intelligent est défini comme une combinaison de modèles, d'outils, de couches d'orchestration et de services d'exécution, qui atteint son objectif par des processus itératifs utilisant un modèle de langage. Les composants principaux sont les suivants : • Modèle (Cerveau) : Le moteur de raisonnement principal, tel qu'un modèle général, un modèle affiné ou un modèle multimodal, est responsable du traitement des informations, de l'évaluation des options et de la prise de décisions. • Outils (mains) : Mécanismes de connexion au monde extérieur, y compris les API, les fonctions de code et le stockage de données, utilisés pour obtenir des informations en temps réel ou effectuer des actions. • La couche d’orchestration (système nerveux) : gère les cycles opérationnels et les processus de planification, de mémoire et de stratégies de raisonnement (telles que la pensée en chaîne ou ReAct). • Déploiement (corps et jambes) : Du prototypage local à l'hébergement serveur sécurisé et évolutif, garantissant l'accès via une interface utilisateur ou une API. Développer un agent intelligent s'apparente au rôle d'un réalisateur : définir les directives et les instructions, sélectionner les outils et fournir le contexte. Le livre blanc souligne que la flexibilité des modèles de langage est une arme à double tranchant, nécessitant une « ingénierie du contexte » pour garantir des résultats fiables. Un agent intelligent est essentiellement un gestionnaire de fenêtres de contexte, capable de s'adapter à de nouvelles situations pour résoudre des problèmes. 3. Processus de résolution de problèmes des agents intelligents : Les agents intelligents atteignent leurs objectifs grâce à des boucles continues, composées de cinq étapes : 1. Obtenir la tâche : Recevoir les objectifs généraux des utilisateurs ou les déclencheurs. 2. Analyser la scène : percevoir l'environnement et recueillir le contexte (tels que les demandes de l'utilisateur, les souvenirs, les outils). 3. Réflexion : Analysez la tâche à l'aide du modèle et élaborez un plan. 4. Action : La première étape de l'exécution du plan, comme le recours aux outils. 5. Observation et itération : Évaluer les résultats, mettre à jour le contexte et boucler. Exemple : Lorsqu’un agent du service client traite la question « Où est ma commande n° 12345 ? », il planifie d’abord plusieurs étapes (trouver la commande, consulter les informations de suivi et rédiger une réponse), puis les exécute une à une. Ce cycle « réfléchir-agir-observer » lui permet de gérer des tâches complexes. 4. Le livre blanc sur la classification des systèmes d'agents intelligents divise les agents intelligents en cinq niveaux, chaque niveau étant une extension du niveau précédent : • Niveau 0 : Système de raisonnement de base : modèle de langage isolé, reposant uniquement sur des connaissances pré-entraînées, incapable d'interagir en temps réel. • Niveau 1 : Connecter les personnes chargées de résoudre les problèmes : Ajouter des outils permettant d'accéder à des données externes (telles que des API de recherche). Niveau 2 : Résolveur de problèmes stratégiques : Prend en charge la planification complexe et l'ingénierie du contexte, et peut gérer l'information de manière proactive. Niveau 3 : Système multi-agents collaboratif : tel qu'une équipe humaine, où les agents traitent les autres agents comme des outils pour réaliser la division du travail. Niveau 4 : Système auto-évolutif : Identifie les lacunes en matière de capacités et crée dynamiquement de nouveaux outils ou agents intelligents. 5. Architecture de l'agent principal : Modèles, outils et orchestration • Sélection du modèle : Privilégier les capacités d'inférence et d'utilisation des outils spécifiques à la tâche plutôt que les performances générales. Le routage multi-modèles (par exemple, planification du modèle principal, exécution du modèle secondaire) est recommandé pour optimiser le coût et la vitesse. Les modèles multimodaux gèrent les images et l'audio, ou des outils spécialisés sont utilisés pour transformer les données. Outils : Ils se divisent en deux catégories : la recherche d’informations (par exemple, RAG, NL2SQL) et l’exécution d’actions (par exemple, les appels d’API, les environnements de test). Les appels de fonction sont connectés via OpenAPI ou MCP pour garantir une interaction fiable. Des outils d’interaction humaine sont également inclus (par exemple, la confirmation HITL). • Couche d'orchestration : Gère le cycle, décidant du moment opportun pour réfléchir ou agir. Les principaux choix concernent le degré d'autonomie (déterminisme ou dynamique), la méthode d'implémentation (sans code ou avec code d'abord, comme ADK) et le framework (ouvert, observable). 6. Choix de conception fondamentaux, systèmes multi-agents et modèles de conception • Instructions et contexte : Injecter les connaissances et les rôles du domaine (tels que « agent de support convivial ») à l’aide d’invites système. Le contexte étendu comprend la mémoire à court terme (session actuelle) et la mémoire à long terme (historique des requêtes RAG). • Multi-agent : Utilise un modèle d’« équipe d’experts » pour éviter un super-agent unique. Les modèles courants incluent : coordinateur (distribution des sous-tâches), séquence (pipeline), raffinement itératif (boucle génération-critique) et HITL (approbation humaine). • Déploiement et services : de l’infrastructure sur site à l’hébergement cloud (comme Vertex AI Agent Engine ou Cloud Run). La gestion de l’historique des sessions, des journaux de sécurité et de la conformité est indispensable. 7. Opérations des agents : Gestion structurée de l’incertitude Agent Ops est une évolution de DevOps et MLOps, qui prend en compte le caractère aléatoire des agents. Pratiques clés : • Mesurer les indicateurs clés tels que le taux d'achèvement des objectifs, la satisfaction des utilisateurs, les retards et l'impact sur l'activité. • Évaluation de la qualité : Le résultat est évalué à l'aide d'un modèle de langage, basé sur le jeu de données de référence. • Développement axé sur les indicateurs : tests automatisés des modifications, vérification du déploiement A/B. • Débogage : OpenTelemetry trace et enregistre le chemin d'exécution. • Retour d'information humain : Transformer le rapport en un nouveau cas de test et boucler la boucle. 8. Interopérabilité des agents • Agents et humains : interaction via des interfaces de chat, des outils informatiques (interfaces de contrôle), la génération dynamique d'interfaces utilisateur ou des interactions multimodales en temps réel (telles que l'API Gemini Live). • Agent à agent : normalisation du protocole A2A pour la découverte et la communication (tâches asynchrones). • Agents et argent : les protocoles AP2 et x402 gèrent les transactions, assurant l'autorisation et les micropaiements. 9. Sécurité et extension • Sécurité mono-agent : équilibre entre utilité et risque grâce à une protection hybride (garde-fous déterministes + protections IA). L’identité de l’agent est établie comme un nouveau sujet, via la vérification SPIFFE. Exemple ADK : injection de détection de rappel, de plugin et de Model Armor. • Extension à l’ensemble du parc d’agents : maîtrise de la prolifération des agents par l’application de politiques via le plan de contrôle (passerelle + registre). Priorité à la sécurité (points d’injection, violations de données) et à l’infrastructure (fiabilité et coût, notamment le débit provisionné). 10. Évolution et apprentissage des agents : Les agents doivent s’adapter au changement et éviter le « vieillissement ». Sources d’apprentissage : expérience opérationnelle (journaux, retours d’expérience) et signaux externes (mises à jour des politiques). L’optimisation passe par l’ingénierie du contexte et la création d’outils. Exemple : Apprentissage de la conformité aux directives pour les flux de travail multi-agents. Agent Gym est à la pointe de cette technologie : une plateforme de simulation hors ligne optimisée grâce à des données synthétiques et à l’expertise de spécialistes. 11. Exemple d'agent avancé : Google Co-Scientist : un partenaire de recherche virtuel qui génère et évalue des hypothèses. Il gère une équipe d'experts en supervisant les agents et en effectuant des itérations pour améliorer les idées. AlphaEvolve : un algorithme de découverte qui combine la génération de code Gemini et l’évaluation évolutionnaire. L’intervention humaine est requise pour définir le problème, garantissant ainsi transparence et praticité. 12. Conclusion : Les agents intelligents transforment l’IA, d’outils en partenaires, en lui conférant une autonomie grâce à l’intégration de modèles, d’outils et d’une orchestration efficace. Les développeurs doivent passer d’un rôle de « maçons » à celui de « directeurs », en mettant l’accent sur l’évaluation et la gouvernance. Ce cadre guide la construction de systèmes fiables, permettant aux agents intelligents de devenir de véritables membres de l’équipe. Cours intensif de 5 jours sur les agents IA de Google et Kaggle : https://t.co/0REUoVY2EN Le dernier livre blanc de Google, paru en novembre, intitulé « Introduction aux agents » :
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
