Je pense que vous pouvez imiter (améliorer) cela en faisant distiller 8 à 16 échantillons sft à partir d'un autre modèle et en laissant la politique en choisir un en fonction de sa préférence pendant RL. Ce serait encore plus rapide et le signal serait sans doute plus élevé si l'on partait d'un modèle plus grand.
Le modèle de dessin est un modèle plus petit et l'astuce de décodage des spécifications vise à améliorer la vitesse. Vous améliorez ainsi les deux aspects : la qualité (en choisissant un modèle plus grand) et la rapidité (en collectant des échantillons de sft à l'avance).
Le choix du modèle de rédaction/distillation et le domaine sélectionné en fonction de la qualité des a priori du modèle de base entraîné auraient une incidence sur toute comparaison directe entre les deux approches.