tellement Dans quelle mesure est-il mauvais de réaliser un SFT sur des données de qualité médiocre, puis de simplement effectuer un RL sur les indicateurs qui vous intéressent, par rapport à une réalisation directe du SFT sur des données de bonne qualité ? En réfléchissant aux situations où l'on souhaite travailler la structure d'une tâche sans pour autant générer un résultat de haute qualité, pour ainsi dire.
Je soupçonne que l'apprentissage par renforcement que vous utiliseriez pour corriger les effets de données erronées n'est pas suffisamment large pour réellement les contrer.