他们一直说不要将模型拟人化,但所有好的技术似乎都是对我们一直以来对人类、行为和学习的研究的类比。 “强化学习在任务接近能力极限时效果最佳。”这是一篇很有意思的论文,值得一读。不过,这里的大部分信息对于拥有大量强化学习经验的人来说,都是经验之谈。 但它的文笔很好,我读得很开心。