Acredito que você pode imitar (ou aprimorar) isso obtendo de 8 a 16 amostras de sft destiladas de outro modelo e fazendo com que a política escolha uma com base em sua preferência durante o RL. Isso seria ainda mais rápido e, possivelmente, teria um sinal mais forte se você estivesse extraindo dados de um modelo maior.
O modelo de rascunho é um modelo menor e o truque de decodificação de especificações visa melhorar a velocidade. Assim, você melhora em ambos os aspectos: qualidade (escolhendo um modelo maior) e velocidade (coletando amostras de sft antecipadamente).
A escolha do modelo de redação/destilação e o domínio selecionado, com base na existência ou não de boas informações prévias no modelo base que está sendo treinado, afetariam qualquer comparação direta entre as duas abordagens.