Comment les agents d'IA peuvent-ils utiliser efficacement « l'ingénierie du contexte » ? La vidéo YouTube « How Agents Use Context Engineering » de @LangChainAI s'articule autour de trois principes : décharger, réduire et isoler. Cette approche est désormais pleinement intégrée dans des frameworks courants tels que Claude Code, Manus et LangChain DeepAgents. 1. Déchargement : alléger la fenêtre du modèle en externalisant les informations ou les opérations qui n'ont pas besoin d'être présentes en temps réel vers un système externe, et l'agent ne les appelle qu'à la demande, lorsque cela est nécessaire. • Stockage sur système de fichiers : les dialogues historiques, les journaux de données et les résultats intermédiaires sont écrits dans des fichiers (tels que JSON), et l’agent utilise des références de chemin au lieu de charger le fichier entier. • Scripting des actions : Les opérations répétitives sont encapsulées dans des scripts indépendants (tels que le nettoyage des données et les appels d'API), et l'agent ne reçoit que les résultats d'exécution, évitant ainsi l'intégration de code dans la fenêtre. • Dévoilement progressif des outils : au lieu d’exposer tous les outils en même temps, ils sont déverrouillés dynamiquement en fonction des étapes de la tâche (par exemple, la recherche d’abord, puis l’édition) afin d’éviter les options redondantes. > Exemples pratiques : DeepAgents prend en charge l’enregistrement dynamique des outils, Manus excelle dans les actions scriptées et Claude Code met l’accent sur la persistance des fichiers. 2. Réduire : Simplifier les informations contenues dans la fenêtre tout en compressant la taille du contexte et en préservant l'intégrité sémantique. • Compactage : Les algorithmes suppriment les jetons redondants, par exemple en fusionnant les messages dupliqués. • Résumé : L'utilisation de LLM pour condenser les longues conversations en points clés (tels que des puces) peut permettre d'économiser plus de 70 % de jetons. • Filtrage : en fonction de la pertinence de la tâche en cours, filtrez les journaux non pertinents ou les fragments historiques. Exemples pratiques : Manus possède un algorithme de compression intégré, Claude Code excelle dans la génération de condensés et DeepAgents fournit des filtres basés sur les requêtes. 3. Isoler : Diviser et régner sur la tâche en décomposant les tâches complexes en sous-modules indépendants, chacun avec sa propre fenêtre de contexte. • Architecture sous-agent : Un agent maître coordonne plusieurs sous-agents pour traiter des sous-tâches (telles que la recherche, la vérification et la synthèse) en parallèle, et les résultats sont finalement agrégés. • Gestion hiérarchique du contexte : les sous-agents n'interfèrent pas entre eux, évitant ainsi la surcharge de la fenêtre unique. Exemples pratiques : DeepAgents prend en charge les chaînes d’agents hiérarchiques, Manus implémente une isolation parallèle avancée et Claude Code fournit une décomposition de base en sous-tâches. Principaux enseignements et recommandations pratiques : L’ingénierie du contexte ne se limite pas aux techniques de mots-clés, mais concerne plutôt la conception architecturale du système. Lors du développement d’agents prêts pour la production, les recommandations suivantes s’appliquent : 1. Commencez par la désinstallation : privilégiez l’utilisation de fichiers et de scripts pour libérer de l’espace sous Windows. 2. Mécanisme de réduction par superposition : combinaison de la synthèse et du filtrage pour maintenir un contexte concis. 3. Isolation pour les tâches complexes : Introduire des sous-agents pour parvenir à un raisonnement profond évolutif. Grâce à ces stratégies, les agents intelligents peuvent évoluer d'une « réponse à court terme » à une « exécution fiable à long terme », améliorant considérablement leurs performances dans des scénarios tels que le développement de code, la recherche et l'analyse, et les processus automatisés. En bref : l’ingénierie du contexte = déchargement de la charge + simplification de l’information + exécution modulaire, permettant à une fenêtre de modèle limitée de gérer un nombre infini de tâches. Vidéo YouTube
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
