“如果它是可验证的,那么它就可以用强化学习进行优化”这一论断,仅仅是强化学习是一种弱通用优化方法的推论。 *现实世界(但你可能会死) *使用模拟器(但需要有人编写它们) *使用验证器(可能比模拟器更容易编写)
更重要(或许也更令人沮丧?)的教训可能是:学习领导力模型/学习关系模型擅长利用人类的陈述性(事实性)知识和程序性知识(以验证者的形式存在)。但当某些事情既缺乏事实性知识也缺乏程序性知识时,情况就会变得复杂。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月16日 20:33
“如果它是可验证的,那么它就可以用强化学习进行优化”这一论断,仅仅是强化学习是一种弱通用优化方法的推论。 *现实世界(但你可能会死) *使用模拟器(但需要有人编写它们) *使用验证器(可能比模拟器更容易编写)
更重要(或许也更令人沮丧?)的教训可能是:学习领导力模型/学习关系模型擅长利用人类的陈述性(事实性)知识和程序性知识(以验证者的形式存在)。但当某些事情既缺乏事实性知识也缺乏程序性知识时,情况就会变得复杂。