J'aimerais bien écrire un article de blog sur certaines des contraintes, limitations et autres problèmes de ce genre liés à l'apprentissage par renforcement avec les masters en droit.
Par exemple, vous n'avez pas besoin d'apprentissage par renforcement sur un sujet pour lequel vous disposez de données vérifiables et qui n'utilise aucune trajectoire pour parvenir au résultat. autrement dit, un seul tour, sans problème de raisonnement mathématique, par exemple.