这是一个垂直整合的端到端深度神经网络,可实时执行前向推理,控制单个执行器的扭矩输出,以在不利、GPS 受限的环境中生成双足步态。 好的,这是标准的 PPO rl,在 mjlab 接受过训练,被绑在拖拉机上。