对于任何对智能反馈回路和工具+评估感兴趣,或者只是好奇“最终我总得动动手指”的人来说,这都是一本很棒的读物(实际上,它总体来说都很棒)。 讨论了强化学习奖励范式,并用一些很好的类比来说明反馈和学习是如何在人类身上运作的(奖励更加密集),以及自然的信用分配! 利用更密集的反馈信号进行优化尚处于早期阶段,但非常有前景,而且从直觉上看也很有道理(?)。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。