Il y a 10 ans : l’ingénieur en apprentissage par renforcement (RL) [1] (Sec. 5.3). Chaîne de pensée adaptative : un réseau de neurones RL apprend à interroger son réseau de « modèle du monde » pour le raisonnement abstrait et la prise de décision. Ce modèle va au-delà du modèle du monde neuronal de 1990 [2] pour la planification à la milliseconde près et du générateur de sous-objectifs neuronaux adaptatifs de 1991 [3,4] pour la planification hiérarchique. [1] J. Schmidhuber (JS, 2015). Apprendre à penser : théorie algorithmique de l’information pour de nouvelles combinaisons de contrôleurs RL et de modèles neuronaux récurrents du monde. ArXiv 1210.0118 [2] JS (1990). Rendre le monde différentiable : Utilisation de réseaux de neurones auto-supervisés entièrement récurrents pour l’apprentissage par renforcement dynamique et la planification dans des environnements non stationnaires. TR FKI-126-90, TUM. (Ce rapport introduit également la curiosité artificielle et la motivation intrinsèque par le biais de réseaux antagonistes génératifs.) [3] JS (1991). Apprentissage de la génération de sous-objectifs pour les séquences d'actions. Actes de l'ICANN'91, p. 967-972. [4] JS & R. Wahnsiedler (1992). Planification de trajectoires simples à l'aide de générateurs de sous-objectifs neuronaux. Proc. SAB'92, p 196-202, MIT Press.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
![Il y a 10 ans : l’ingénieur en apprentissage par renforcement (RL) [1] (Sec. 5.3). Chaîne de pensée adaptative : un rése](https://pbs.twimg.com/media/G62qakxWcAATu16.png)