X (Twitter)

「如果它是可驗證的，那麼它就可以用強化學習進行最佳化」這一論斷，僅僅是強化學習是一種弱通用最佳化方法的推論。 *現實世界（但你可能會死） *使用模擬器（但需要有人編寫它們） *使用驗證器（可能比模擬器更容易編寫）

更重要（或許也更令人沮喪？）的教訓可能是：學習領導力模型/學習關係模型擅長利用人類的陳述性（事實性）知識和程序性知識（以驗證者的形式存在）。但當某些事情既缺乏事實性知識也缺乏程序性知識時，情況就會變得複雜。

來自 Subbarao Kambhampati (కంభంపాటి సుబ్బారావు)（@rao2z）的推文串