인간이 순전히 함수 근사로 학습한다면 지금처럼 "일반화"를 잘할 수 있을까요? 강력한 표본 효율적 일반화에는 *추론*이 필요합니다. 즉, 학습 중에 명시적인 가설을 수립하고 테스트하는 것입니다. 추론은 확장할 수 있지만, 추론은 배우지 못한다고요?
기존의 심층 강화 학습(그리고 일반적인 심층 학습)은 연습을 통한 학습에 관한 것입니다. 작지만 꾸준한 국소적 개선을 통해 뛰어난 반사신경을 형성합니다. 이런 경우 잘못된 추상화 수준에서 학습이 중단되는 경우가 많습니다. 우리는 단순한 연습이 아니라 성찰과 주도적인 실험을 통해 배웁니다.