L'apprentissage par renforcement (RL) ne fonctionne que si le modèle pré-entraîné est déjà capable de résoudre le problème (sinon, il n'y a pas de signal de récompense). Par conséquent, le RL ne peut résoudre aucun problème complexe, et lorsqu'il semble y parvenir, il s'agit simplement d'une méthode de force brute à peine déguisée.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.