En résumé : davantage d’évaluations doivent privilégier l’agent plutôt que le modèle, où agent = modèle + harnais. En pratique, il est quasiment impossible et généralement inutile d'évaluer un modèle sans son harnais ; même si c'était possible, que mesurerait-il réellement ? Quelques remarques : 1. Les harnais actuels offrent une valeur ajoutée considérable au modèle. Des entreprises comme Factory AI Droid et Amp Code se spécialisent dans la création de harnais performants et intuitifs, optimisés pour le développement multiplateforme. Vous pouvez vendre un harnais comme produit : « HaaS » signifie « harnais en tant que service ». 2. Les modèles actuels sont entraînés avec des composants de leur « boucle de rétroaction », notamment la description de leurs outils et (je crois) les comportements relatifs au moment et à la manière de réaliser une pensée entrelacée. 3. Corriger un harnais pour rendre les évaluations entre modèles « équitables » n'est pas équitable. Les modèles sont non fongibles dans leur harnais ; corriger le harnais ne constitue pas une standardisation car nous ne disposons pas des outils d'interprétabilité nécessaires pour comprendre comment chaque harnais affecte chaque modèle. Nous utilisons les évaluations comme un simple indicateur, et corriger le harnais suppose que les performances du modèle sont fixes d'un harnais à l'autre, ce qui n'est pas le cas. Les évaluations devraient mesurer la capacité à accomplir une tâche. Pourquoi dissocier le modèle lui-même des paramètres optimaux nécessaires pour obtenir un comportement adéquat ? On pourrait par exemple mesurer « que se passe-t-il si je soumets ce modèle aux pires conditions possibles pour accomplir cette tâche ? A-t-il des difficultés, ou réussit-il parfaitement ? »… Mais pourquoi ? Bien que fascinant et intéressant, ce n’est pas utile en pratique aujourd’hui. L’objectif est de concevoir des systèmes performants, et un modèle n’est qu’un composant (certes le plus important) de ce système. Une ingénierie système plus poussée dans les évaluations est une bonne chose, même si les modèles deviennent plus intelligents et nécessitent moins d'encadrement. Je suis convaincu que l'encadrement ne disparaîtra jamais complètement ; on pourrait simplement le renommer.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.