乙状结肠阶梯 读完德瓦尔凯什的文章后,我仔细查阅了一个让我颇为担忧的参考资料。他在文章中提到: “Toby Ord 写了一篇很棒的文章,他巧妙地将不同的 o 系列基准测试图表联系起来,这表明‘我们需要将 RL 总计算量扩大 100 万倍,才能获得与 GPT 水平类似的提升’。” 这听起来好像事情要停滞不前了。 托比甚至说了两件让我担心的事: 1. “我们已经取得了令人瞩目的进展,但这只有在基数很低的情况下才可行。现在我们已经到了成本过高,无法再继续扩大规模的地步。” 2.“现在强化学习训练已经接近其有效极限,我们可能已经失去了将更多计算能力转化为更多智能的能力。” 我四处打听这种说法是否合理,以及扩大强化学习规模的相反的利好因素是什么。 一位好友说:“没错,如果继续天真地扩展强化学习计算,它的扩展性会很差。但我们不应该这样做!这就是为什么会有这么多强化学习环境公司。更好的方法是扩展到更新、更复杂的环境。” 仔细思考了一番之后,我找到了一种进一步简化它的方法:“把它想象成通往新任务、新世界、新目标的阶梯,是思考它如何能够持续一段时间的最有帮助的方法。”
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。