Hace 10 años: el ingeniero de indicaciones del aprendizaje de refuerzo (AR) [1] (Sección 5.3). Cadena de pensamiento adaptativa: una red neuronal de AR aprende a consultar su red de "modelo de mundo" para el razonamiento abstracto y la toma de decisiones. Se va más allá del modelo de mundo neuronal de 1990 [2] para la planificación milisegundo a milisegundo y del generador de subobjetivos neuronales adaptativo de 1991 [3,4] para la planificación jerárquica. [1] J. Schmidhuber (JS, 2015). Sobre aprender a pensar: Teoría de la información algorítmica para nuevas combinaciones de controladores de aprendizaje por refuerzo y modelos neuronales recurrentes. ArXiv 1210.0118 [2] JS (1990). Haciendo el mundo diferenciable: Sobre el uso de redes neuronales autosupervisadas totalmente recurrentes para el aprendizaje de refuerzo dinámico y la planificación en entornos no estacionarios. TR FKI-126-90, TUM. (Este informe también introdujo la curiosidad artificial y la motivación intrínseca mediante redes generativas antagónicas). [3] JS (1991). Aprendizaje para generar subobjetivos para secuencias de acción. Proc. ICANN'91, págs. 967-972. [4] JS y R. Wahnsiedler (1992). Planificación de trayectorias simples mediante generadores de subobjetivos neuronales. Proc. SAB'92, págs. 196-202, MIT Press.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
![Hace 10 años: el ingeniero de indicaciones del aprendizaje de refuerzo (AR) [1] (Sección 5.3). Cadena de pensamiento ada](https://pbs.twimg.com/media/G62qakxWcAATu16.png)