Je maintiens que l'apprentissage réflexif est l'avenir des algorithmes d'apprentissage. Cela est lié à la simple réflexion sur la création de fonctions de valeur fonctionnelles, mais va bien au-delà.
Le problème des méthodes d'apprentissage supervisé et par renforcement classiques est que le système est soumis à des mises à jour de gradients qu'il n'a pas sélectionnées à partir d'expériences qu'il n'a pas conçues. Si notre objectif est de « réduire le temps de réflexion », l'agent ne devrait-il pas réfléchir beaucoup plus profondément à la manière dont il apprend ?