正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月3日 06:00
例如,对于已经拥有可验证的真实数据,并且无需任何轨迹即可达到结果的情况,就不需要使用强化学习。 例如,单轮、无需推理的数学题