Pour tous ceux qui s'intéressent aux boucles de rétroaction et aux harnais d'évaluation des agents, ou qui sont simplement curieux de savoir « il faudra bien que je touche aux haltères un jour », c'est une excellente lecture (excellente en général, en fait). aborde le paradigme de récompense RL avec de belles analogies sur la façon dont le feedback et l'apprentissage fonctionnent chez les humains (récompense beaucoup plus dense) avec une attribution de crédit naturelle ! L'optimisation via des signaux de rétroaction plus denses est encore à ses débuts mais très prometteuse et semble intuitivement logique (?).
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.