10년 전: 강화 학습(RL) 프롬프트 엔지니어[1](5.3절). 적응적 사고 사슬: RL 신경망은 추상적 추론 및 의사 결정을 위해 "세계 모델"에 질의하는 방법을 학습합니다. 밀리초 단위 계획을 위한 1990년 신경 세계 모델[2]과 계층적 계획을 위한 1991년 적응적 신경 하위 목표 생성기[3,4]를 넘어섭니다. [1] J. Schmidhuber (JS, 2015). 사고 학습에 관하여: RL 컨트롤러와 순환 신경망 세계 모델의 새로운 조합을 위한 알고리즘 정보 이론. ArXiv 1210.0118 [2] JS (1990). 세상을 미분 가능하게 만들기: 비정지 환경에서 동적 강화 학습 및 계획을 위한 완전 순환 자기 감독 신경망 사용에 관하여. TR FKI-126-90, TUM. (이 보고서는 또한 생성적 적대 신경망을 통해 인공적 호기심과 내재적 동기를 소개했습니다.) [3] JS (1991). 동작 시퀀스에 대한 하위 목표 생성 학습. Proc. ICANN'91, p. 967-972. [4] JS & R. Wahnsiedler(1992). 신경 하위 목표 생성기를 사용한 단순 궤적 계획. Proc. SAB'92, p 196-202, MIT Press.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
. 적응적 사고 사슬: RL 신경망은 추상적 추론 및 의사 결정을 위해 "세계 모델"에 질의하는 방법을 학습합니다. 밀리초 단위 계획을 위한 1990년](https://pbs.twimg.com/media/G62qakxWcAATu16.png)