我仍然坚持认为反思性学习是学习算法的未来。 这与思考如何创建有效的值函数有关,但内容要丰富得多。
传统监督学习和强化学习的问题在于,系统会受到它没有精心挑选、也没有设计的实验所带来的梯度更新的影响。 如果我们都致力于“延长思考时间”,那么智能体难道不应该更认真地思考它是如何学习的吗?
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月26日 02:55
我仍然坚持认为反思性学习是学习算法的未来。 这与思考如何创建有效的值函数有关,但内容要丰富得多。
传统监督学习和强化学习的问题在于,系统会受到它没有精心挑选、也没有设计的实验所带来的梯度更新的影响。 如果我们都致力于“延长思考时间”,那么智能体难道不应该更认真地思考它是如何学习的吗?