一位聪明人给我举了一个很棒的比喻,我告诉他我要借用一下,所以就有了这个比喻:强化训练模型来完成特定的(可评估的)任务,就像找到一种具有特定药效的化合物。它可能对其他任务有效,甚至对那些毫不相关的任务无效——你只能通过实验来了解它还有哪些其他用途(或者任何副作用)。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年12月14日 15:43
一位聪明人给我举了一个很棒的比喻,我告诉他我要借用一下,所以就有了这个比喻:强化训练模型来完成特定的(可评估的)任务,就像找到一种具有特定药效的化合物。它可能对其他任务有效,甚至对那些毫不相关的任务无效——你只能通过实验来了解它还有哪些其他用途(或者任何副作用)。