Premier projet RL/DPO sur Baguettotron (et, fidèle à l'esprit du projet, poésie RL). Il répond aussi indirectement à la question de savoir si l'on peut diversifier la génération à partir d'un entraînement entièrement basé sur la synthèse.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.