X (Twitter)

La lecture de l'article perspicace de Manus, « Context Engineering for AI Agents: Lessons from Building Manus », a été encore très enrichissante et inspirante. @ManusAI Comment résoudre les problèmes de ralentissement, de perte d'intelligence et d'augmentation du coût des agents d'IA en optimisant drastiquement la structure des informations contextuelles fournies au modèle, sans modifier le modèle lui-même ? Il s'agit essentiellement de concevoir un « système d'exploitation centré sur un LLM », dont les aspects sont détaillés ci-dessous. Optimisation des performances : Protégez le « KV-Cache » comme vous le feriez pour une base de données. Point faible : les agents sont lents et coûteux, essentiellement parce qu'ils effectuent de nombreux calculs répétitifs pour chaque requête. Analyse technique : Lors de l’inférence de modèles complexes, un cache KV temporaire est créé. Si la première partie de vos invites d’entrée reste inchangée, ce cache peut être réutilisé, ce qui accélère l’inférence de plus de 10 fois. La solution de Manus : la stratégie du « gel des préfixes ». N’insérez jamais d’informations évoluant dynamiquement (comme un horodatage précis à la seconde près) au début de l’invite système. La modification d’un seul caractère au début invalidera l’intégralité du cache clé-valeur, obligeant le système à recommencer le calcul depuis le début. Cela revient à placer les « constantes statiques » au début et les « variables dynamiques » à la fin lors de l'écriture de code afin de maximiser le taux d'accès au cache. Gestion étatique : combattre l’« amnésie » des grands modèles Point faible : à mesure que la chaîne de tâches s'allonge, le modèle est sujet au phénomène de « perte au milieu », oubliant son objectif initial ou un certain état intermédiaire. Analyse technique : L’architecture Transformer accorde une grande importance au début et à la fin des textes longs, mais une moindre importance à leur partie centrale. Le simple fait d’accumuler l’historique des tâches au milieu du texte peut entraîner l’omission de certaines parties par le modèle. La solution à Manus est « la récitation explicite de l'état ». Il ne s'agit pas seulement d'enregistrement ; cela force le modèle à régénérer la liste des tâches actuelles et l'état actuel à la fin de chaque sortie. Cela tire parti du mécanisme d'attention du Transformer : il déplace de force les informations d'état les plus importantes vers le dernier point dans la ligne de visée du modèle, ce qui équivaut à effectuer un « étalonnage de l'attention » avant chaque inférence. Gestion des erreurs : Considérer les messages d’erreur comme des données d’entraînement. Problème : Les logiciels traditionnels détectent et relancent généralement l’exécution en cas d’erreur. Or, pour les agents, si le journal d’erreurs est supprimé, le modèle ne prendra pas conscience de son erreur et risque de la reproduire. Analyse technique : Les grands modèles possèdent des capacités d’apprentissage contextuel. Ils peuvent non seulement apprendre « comment bien faire les choses », mais aussi « comment mal les faire ». Solution de Manus : Préserver le contexte de « l’échantillon négatif ». • En cas de défaillance de l'outil d'exécution de l'agent, la pile d'erreurs complète est conservée. Le modèle détecte « chemin A → défaillance » et sa distribution de probabilité interne réduit automatiquement le poids du chemin A lors de l'inférence suivante. Il s'agit d'un type d'apprentissage par renforcement en temps réel. Vous n'avez pas besoin d'entraîner le modèle ; il suffit de laisser des « images d'échec » dans l'environnement, et le modèle apprendra à trouver des chemins alternatifs par lui-même. Conception de l'exemple : Empêcher le modèle de passer en « mode de saisie automatique » Point faible : si vous donnez à votre modèle un format de prise de vue simplifiée trop parfait et trop uniforme, le modèle deviendra stupide. Analyse technique : Les grands modèles ont une forte tendance à « copier des schémas » au cœur de leur fonctionnement. Lorsqu’ils constatent que les données d’entrée sont toutes dans un format répétitif, ils ont tendance à copier mécaniquement ce format et à ne plus se soucier de la logique du contenu. La solution de Manus : introduire « l'entropie structurelle » (bruit). • Évitez de rendre identiques les enregistrements d'interactions historiques. Conservez intentionnellement certains enregistrements hétérogènes et imparfaits lors de la construction du contexte. Ce subtil « sentiment de chaos » brise l'inertie mécanique du modèle, le forçant à véritablement « comprendre » le contenu actuel à chaque fois afin de générer une réponse, plutôt que de simplement effectuer une complétion de texte. Lire le texte original

Fil de meng shao (@shao__meng)

Informations sur l'auteur

Contenu du fil