“目前这些模型最令人困惑的一点是:如何解释它们在评估中表现如此出色这一事实。 你看了评价后会想:“这些评价相当严格。” 但经济影响似乎远远滞后了。 或许有这样的解释。以前人们做预训练的时候,训练数据的选择问题就已经有了答案,因为答案就是所有数据。所以你不用考虑是用这个数据集还是那个数据集。 当人们进行强化学习训练时,他们会说:“好的,我们希望对这个事物进行这种强化学习训练,对那个事物进行那种强化学习训练。” 你说:“嘿,我希望我们的模型发布时能表现出色。我希望评估结果看起来很棒。哪些强化学习训练方法可以帮助我们完成这项任务?” 如果再加上模型泛化能力不足的问题,就有可能解释我们所看到的很多现象,即评估性能与实际现实世界性能之间的脱节。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。