Un détail crucial : le modèle LLM utilisé comme juge est un autre Baguettotron, réentraîné comme modèle de récompense. Nous disposons ainsi d’un système d’apprentissage par renforcement pleinement fonctionnel avec moins de 500 millions de paramètres.
« Il préfère tellement la poésie expérimentale/étrange que plus de 20 % c'est trop épicé » => J'ai peut-être trop mis de moi-même dans ce modèle.