Très intéressant. Nous n'utilisons aucune récompense étiquetée (liée à la tâche) lors de l'entraînement. L'inférence de la récompense (optimisation) a lieu lors des tests. Les utilisateurs peuvent définir n'importe quel type de fonction de récompense en fonction des états du robot, et la politique de zéro-shot génère les compétences optimisées.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
