X (Twitter)

Construction d'un modèle mental d'agent à l'aide de questions ouvertes En bref : - Vue simplifiée d'un agent : il s'agit d'un système doté d'un harnais spécifique à la tâche et d'un choix de modèle Les modèles ne sont pas interchangeables au sein des faisceaux. Leur intelligence est irrégulière, donc une « mise à jour » vers le nouveau modèle nécessite davantage de travail. Ce que nous appelons un agent/harnais « généraliste » est en réalité un compromis entre le temps que je souhaite consacrer à la personnalisation et les performances des tâches. - Un domaine passionnant de l'ingénierie des harnais réside dans l'optimisation autonome (méta-provocation, modélisation, dspy, etc.). Prérequis : Considérons une « unité de travail utile » pour un agent et appelons-la une tâche. Questions : Question 1 : Existe-t-il un framework d’agent « généraliste » ? Un framework capable de résoudre un large éventail de tâches, me permettant de l’utiliser sans nécessiter de développement supplémentaire important. Un peu comme « utiliser le framework de base de Claude Code ». Question 2 : Que signifie « exister » ? Par exemple, à quel point perds-je en termes de performance en n’optimisant pas excessivement mon harnais pour ma tâche ? Question 3 : À quoi ressemblerait un monde où les harnais seraient générés « juste à temps » ? Nous souhaitons concilier « Je veux des performances optimales pour mes tâches » et « Je veux consacrer un temps raisonnable à l’optimisation de mon harnais ». Réflexions : À quoi cela ressemble-t-il ? Un harnais n'est pas une invite, mais l'esprit est similaire à celui de @DSPyOSS (Miprov2, GEPA, etc.). Nous souhaitons optimiser simultanément et idéalement de manière autonome les composants du harnais pour notre tâche (invites, conception de l'outil, définitions des sous-agents, contexte utile). Les modèles ne sont pas fongibles : Il ne faut pas dissocier un modèle de son interface, car ils sont interdépendants ! Ce qui nous importe, c'est la performance de la tâche ; il est donc nécessaire de concevoir une paire modèle + interface adaptée à cette tâche. Par exemple, si vous travaillez comme ingénieur logiciel, les invites, les outils et les benchmarks du modèle pour la reconnaissance optique de caractères (OCR) ne vous intéressent pas. Ce que nous faisons aujourd'hui : Dans une entreprise réelle, les tâches se présentent souvent sous une forme similaire : entrées, sorties attendues et étapes intermédiaires comparables. On peut donc soit transformer cette tâche en un workflow, soit développer un framework et un agent spécifiques pour l’exécuter. Le rêve : Mais dans la réalité, avec de vrais utilisateurs, la variabilité est incroyable. L'idéal serait donc que, lorsqu'une tâche arrive, un agent soit généré à la volée, doté d'outils, d'instructions, de critères de réussite et d'une intelligence hyper-spécifiques pour cette tâche. Aujourd'hui, la mise en œuvre optimale de ce processus nécessite probablement une intervention humaine, mais nous verrons sans doute de plus en plus d'agents créer des interfaces pour d'autres agents. C'est sur ce point que les entreprises de « création d'agents » devraient concentrer tous leurs efforts : celles qui réussiront le mieux seront tout simplement celles qui excelleront dans ce domaine. Certains de ces éléments trouveraient sans doute leur place dans un blog, mais il est bon de les publier. Les harnais sont très en vogue actuellement et tout le monde s'efforce de les rendre faciles à construire et… tout simplement performants pour leur domaine.

Fil de Viv (@Vtrivedy10)

Informations sur l'auteur

Contenu du fil