我想写一篇博客文章,探讨一下使用LLM进行RL训练时的一些限制、约束以及其他类似问题。
例如,对于已经拥有可验证的真实数据,并且无需任何轨迹即可达到结果的情况,就不需要使用强化学习。 又称单轮推理数学题
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 2 条推文 · 2025年11月3日 05:59
我想写一篇博客文章,探讨一下使用LLM进行RL训练时的一些限制、约束以及其他类似问题。
例如,对于已经拥有可验证的真实数据,并且无需任何轨迹即可达到结果的情况,就不需要使用强化学习。 又称单轮推理数学题