Será que os humanos "generalizariam" tão bem se aprendessem puramente por aproximação de funções? A generalização robusta e eficiente em termos de amostras requer *raciocínio*: formulação e teste explícitos de hipóteses durante o aprendizado. Você dimensiona o raciocínio inferencial. Mas não o raciocínio de aprendizagem?
O aprendizado por reforço profundo convencional (e o aprendizado profundo em geral) se baseia na aprendizagem por meio da prática. Pequenas, porém constantes, melhorias locais que desenvolvem excelentes reflexos. Muitas vezes, isso nos impede de aprender em um nível de abstração adequado. Aprendemos por meio da reflexão e da experimentação direcionada, não apenas pela prática.