X (Twitter)

“如果它是可验证的，那么它就可以用强化学习进行优化”这一论断，仅仅是强化学习是一种弱通用优化方法的推论。 *现实世界（但你可能会死） *使用模拟器（但需要有人编写它们） *使用验证器（可能比模拟器更容易编写）

更重要（或许也更令人沮丧？）的教训可能是：学习领导力模型/学习关系模型擅长利用人类的陈述性（事实性）知识和程序性知识（以验证者的形式存在）。但当某些事情既缺乏事实性知识也缺乏程序性知识时，情况就会变得复杂。

来自 Subbarao Kambhampati (కంభంపాటి సుబ్బారావు)（@rao2z）的推文线程