Finalement, nous devons progresser vers une méthode pour « enseigner aux LLM » en expliquant en anglais ce qu'ils ont mal fait, en traduisant cela en gradients et en intégrant ainsi cette leçon dans le modèle. Qu'il s'agisse de récompenses binaires, scalaires ou autres, le système n'est pas aussi efficace qu'il pourrait l'être. S'il pouvait prendre en compte vos critiques (ou même celles d'un examinateur de master) et intégrer pleinement le retour d'information au lieu de le déduire des écarts de scores sur un vaste ensemble de données, il apprendrait beaucoup plus vite.
(Bien sûr, il faut réserver les récompenses scalaires et binaires, et tout le tralala, aux cas où elles représentent clairement des voies de moindre résistance, mais avec de vrais utilisateurs, il y a des raisons précises pour lesquelles ils ont détesté une réponse ; le modèle doit comprendre pourquoi ils ont détesté une réponse, et non pas simplement obtenir un pouce levé ou baissé et apprendre sur de nombreux exemples.)