X (Twitter)

对于任何对智能反馈回路和工具+评估感兴趣，或者只是好奇“最终我总得动动手指”的人来说，这都是一本很棒的读物（实际上，它总体来说都很棒）。讨论了强化学习奖励范式，并用一些很好的类比来说明反馈和学习是如何在人类身上运作的（奖励更加密集），以及自然的信用分配！利用更密集的反馈信号进行优化尚处于早期阶段，但非常有前景，而且从直觉上看也很有道理（？）。

来自 Viv（@Vtrivedy10）的推文线程

作者信息

线程正文