Le contenu « slop » maximise le rapport récompense/perplexité. Concrètement, il s'agit d'une optimisation de la récompense par la réduction de la distribution des résultats à un bassin contenant quelques motifs Pareto-optimaux, construisant ainsi une grammaire dégénérée spécifique à cette configuration d'entraînement.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.