Siguen diciendo que no hay que antropomorfizar los modelos, pero todas las buenas técnicas parecen ser analogías de lo que hemos estudiado sobre los humanos, el comportamiento y el aprendizaje durante todo este tiempo. "El RL funciona mejor cuando las tareas están al límite de la competencia"
Este es un artículo interesante y se recomienda leerlo, aunque la mayor parte de la información aquí presentada es algo que las personas con muchas horas de vida real sabrían por experiencia. Pero está muy bien escrito y disfruté leyéndolo.

