开箱即用,无需任何游戏专属的强化学习或调校?不可能。我会非常震惊。作为交互问题,这比驾驶或人形机器人控制要难得多。而且目前大多数游戏的LLM测试结果都是胡扯。 Voyager for Minecraft 可以调用诸如“去挖煤”之类的动作,并提供大量公开的示例脚本。这将是一个独立的、从零开始的强化学习任务。 国际象棋恰好以法学硕士(LLM)所需的文本格式记录棋局。而且这类棋局有很多。 当你没有合适的硬件,但可以使用模拟环境时呢?小型模型强化学习就能轻松搞定。我们在 https://t.co/wPfmdJfe1d 上展示了几个仅用单个 GPU 几秒钟就训练出超人水平的例子。而且这不仅仅局限于游戏。我们为客户构建的大多数复杂模拟环境,最终都比相对简单的游戏更容易进行强化学习。 在我看来,我们这个领域迄今为止最棒的成果无疑是 OpenAI Five。它用大约 1000 个 GPU 就击败了 Dota 的顶尖职业选手。现在用 64 到 256 个 H100 应该也能做到。CPU 的确是个强劲的对手,但正因如此,我们才需要为我们真正关心的问题构建快速的定制模拟器。我们不断看到强化学习(RL)提出一些解决方案,而我实在想不明白逻辑学习模型(LLM)怎么可能做到零样本攻击。交互是智能的根本。 如果通过玩游戏来微调 LLM 模型呢?当然可以,而且比从头开始训练更节省样本。但计算效率会非常低。我们有相当充分的证据表明,强化学习中的缩放规律倾向于更小的模型规模和更多的数据。这是我在自己的研究中做出的假设,目前看来效果不错。 那么,如果你真的想用 Grok 取得令人瞩目的强化学习成果呢?我认为关键在于弥合大型模型和小型模型之间的差距。在训练过程中,几乎所有(>>99.9%)的动作都用小型模型完成。多玩一些游戏。用大型模型来指导探索等等。游戏和机器人领域已经有一些这方面的成果,但还没有真正令人满意的结果。我没有在这方面投入精力,因为我认为小型模型强化学习目前更有潜力,即使在小规模上也有非常清晰的发展路径。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。