很有意思。 我们在训练过程中没有任何标记的(与任务相关的)奖励。奖励推断(优化)在测试阶段进行。用户可以提示输入任何类型的与机器人状态相关的奖励函数,策略零样本输出优化后的技能。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年11月10日 03:24
很有意思。 我们在训练过程中没有任何标记的(与任务相关的)奖励。奖励推断(优化)在测试阶段进行。用户可以提示输入任何类型的与机器人状态相关的奖励函数,策略零样本输出优化后的技能。