X (Twitter)

對於任何對智慧回饋迴路和工具+評估感興趣，或者只是好奇「最終我總得動動手指」的人來說，這都是一本很棒的讀物（實際上，它總體來說都很棒）。討論了強化學習獎勵範式，並用一些很好的類比來說明回饋和學習是如何在人類身上運作的（獎勵更加密集），以及自然的信用分配！利用更密集的回饋訊號進行最佳化尚處於早期階段，但非常有前景，而且從直覺上看也很有道理（？）。

來自 Viv（@Vtrivedy10）的推文串

作者資訊

推文串內容