Continuo a afirmar que a aprendizagem reflexiva é o futuro dos algoritmos de aprendizagem. Isso está relacionado, mas é bem mais abrangente do que pensar em criar funções de valor que funcionem.
O problema com o aprendizado supervisionado e por reforço convencionais é que o sistema fica sujeito a atualizações de gradiente que ele não selecionou a partir de experimentos que ele não projetou. Se o nosso objetivo é "aumentar o tempo de raciocínio", não deveria o agente pensar muito mais sobre como aprende?