« Notre modèle de taux de réussite nous permet également de mieux comprendre pourquoi l'entraînement contre soi-même a été si productif dans l'histoire du RL. Si vous jouez contre un joueur presque aussi bon que vous, vous vous situez autour d'un taux de réussite de 50 %, ce qui maximise les gains potentiels d'une variable binaire aléatoire. »
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.