Muy interesante. No utilizamos recompensas etiquetadas (relacionadas con la tarea) durante el entrenamiento. La inferencia de recompensas (optimización) se realiza durante la prueba. Los usuarios pueden sugerir cualquier tipo de función de recompensa en función del estado del robot, y la política de aprendizaje sin ejemplos genera las habilidades optimizadas.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
