Sigo sosteniendo que el aprendizaje reflexivo es el futuro de los algoritmos de aprendizaje. Esto está relacionado con pensar en crear funciones de valor que funcionen, pero es mucho más enriquecedor.
El problema con el aprendizaje supervisado y de refuerzo convencional es que el sistema queda sujeto a actualizaciones de gradiente que no ha seleccionado y que provienen de experimentos que no ha diseñado. Si lo que nos interesa es “ampliar el tiempo de pensamiento”, ¿no debería el agente pensar mucho más en cómo aprende?