这是一个值得思考的好问题,它引出了其他一些有趣的研究问题: 1. 情境学习是否存在上限? 2. RL 是突破这一瓶颈的途径吗? 3. 权重中已经包含多少我们不知道如何可靠提取的知识? 文本优化在一定程度上确实有效。例如,以下流程: 代理工具 —> 评估 —> 挖掘痕迹 —> 改进工具 关于样本效率、计算成本、基于文本和基于强化学习的优化比较,有很多有趣的实验可以做。 还有一点是,在 RL 之后,我们会在多大程度上再次调整你的框架,从而又回到基于文本的优化?
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
