「如果它是可驗證的,那麼它就可以用強化學習進行最佳化」這一論斷,僅僅是強化學習是一種弱通用最佳化方法的推論。 *現實世界(但你可能會死) *使用模擬器(但需要有人編寫它們) *使用驗證器(可能比模擬器更容易編寫)
更重要(或許也更令人沮喪?)的教訓可能是:學習領導力模型/學習關係模型擅長利用人類的陳述性(事實性)知識和程序性知識(以驗證者的形式存在)。但當某些事情既缺乏事實性知識也缺乏程序性知識時,情況就會變得複雜。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月16日 晚上8:33
「如果它是可驗證的,那麼它就可以用強化學習進行最佳化」這一論斷,僅僅是強化學習是一種弱通用最佳化方法的推論。 *現實世界(但你可能會死) *使用模擬器(但需要有人編寫它們) *使用驗證器(可能比模擬器更容易編寫)
更重要(或許也更令人沮喪?)的教訓可能是:學習領導力模型/學習關係模型擅長利用人類的陳述性(事實性)知識和程序性知識(以驗證者的形式存在)。但當某些事情既缺乏事實性知識也缺乏程序性知識時,情況就會變得複雜。