Ma compréhension personnelle de l'approche d'évaluation et de notation des agents d'IA : 1. Évaluation interne par des experts : Commencez par une recherche exhaustive de toutes les connaissances, ouvrages et méthodologies du domaine afin d’identifier les approches d’experts. Ensuite, synthétisez et quantifiez ces approches selon plusieurs dimensions, constituant ainsi un cadre d’évaluation. Ensuite, nous avons trouvé un vaste ensemble de données de cas et les avons fait évaluer manuellement par des experts. Bien sûr, vous pouvez également former un agent à évaluer les résultats et à les comparer aux évaluations des experts. 2. Évaluation du modèle : Dans ce scénario spécifique, différents modèles sont exécutés sur le même ensemble de données pour obtenir des résultats d'évaluation, afin de trouver le modèle de pointe (SOTA) pour ce scénario. 3. Comparez et évaluez vos agents et ceux de vos concurrents. Analysez les mêmes données et obtenez des résultats différents. Revenez ensuite à l'étape 1 pour analyser les différences entre vos agents et ceux de vos concurrents dans des situations spécifiques. 4. Évaluation par des utilisateurs experts : Trouvez des utilisateurs experts et recueillez leurs dimensions d'évaluation et leur NPS (Net Per Score) pour optimiser et affiner de manière itérative le cadre d'évaluation. ----- N’autorisez pas les utilisateurs ordinaires à évaluer le produit, car cette évaluation sera invalide. Vous pouvez interroger les utilisateurs réguliers sur le NPS, mais ne laissez jamais un profane donner des instructions à un expert. La qualité d'un produit peut être jugée par des utilisateurs experts. Les experts présents ici ne sont pas seulement des experts internes au secteur, mais aussi des utilisateurs experts externes. Les utilisateurs experts sont souvent des leaders d'opinion, et leurs préférences peuvent amplifier et influencer le grand public. Autrement dit, ces utilisateurs sont des agrégateurs des goûts du grand public, leurs évaluations ont donc plus de valeur en tant que référence.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.