Une quasi-absence de décalage kl entre l'entraînement et l'inférence améliorerait considérablement les résultats. On peut probablement aussi assouplir la régularisation k-k. Le fait que le choix de *PO n'ait pas d'importance est amusant, et je pense que cela aurait tout de même un impact sur les queues de distribution.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.