Je suis un grand partisan de la conception itérative de harnais avec humain et agent dans la boucle, guidée par des évaluations. Exemple de flux de travail : 1. Créer un cadre d'agent de base (disons invites + outils pour simplifier) 2. Exécutez votre agent sur un ensemble d'évaluations et collectez les traces. Cela représente probablement une quantité considérable de données qu'un humain ne pourrait pas analyser seul ; utilisez des agents pour vous aider, mais guidez-les soigneusement. 3. « Exploration de données » : Utilisez un autre agent de jugement pour explorer ces traces, en définissant clairement vos objectifs. Parmi les tendances intéressantes, citons la stratification des traces pour identifier les schémas répétitifs, le calcul de statistiques sur les échecs d'appel d'outils, etc. 4. Affinez les outils et les invites suite à cette phase d'exploration de données. Vous disposez désormais des données nécessaires pour orienter la prochaine réécriture. Cela indique clairement ce qui fonctionne et ce qui ne fonctionne pas. 5. Répétez l'opération jusqu'à saturation ou jusqu'à obtention d'un résultat satisfaisant. Vous pouvez également exécuter ce processus en parallèle sur plusieurs faisceaux et modèles. Cela tire parti des atouts respectifs des humains et des agents. Les agents excellent dans la reconnaissance de formes et peuvent traiter rapidement d'énormes quantités de données. Les humains, grâce à leur intuition et leur expertise métier, guident la mise à jour du système. Les évaluations nous fournissent une mesure pour optimiser le processus.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.