Creo que se puede imitar (mejorar) esto tomando de 8 a 16 muestras sft destiladas de otro modelo y haciendo que la política elija una en función de su preferencia durante el RL. Eso sería aún más rápido que esto y posiblemente proporcionaría una señal más alta si se estuviera destilando a partir de un modelo más grande.
El modelo de diseño es un modelo más pequeño y el truco de decodificación de especificaciones consiste en mejorar la velocidad. De esta forma se mejoran ambos aspectos: la calidad (eligiendo un modelo más grande) y la velocidad (recopilando muestras de sft por adelantado).
La elección del modelo de extracción/destilación y el dominio seleccionado en función de si el modelo base que se está entrenando tiene buenos datos previos o no, afectarían cualquier comparación 1x1 entre ambos enfoques.