muuu ... ¿Qué tan malo es hacer SFT con datos de calidad media y luego simplemente repetir las métricas que te interesan, en comparación con hacer SFT con datos de buena calidad en primer lugar? Pensando en situaciones en las que se desea entrenar la estructura de una tarea pero sin generar "carne" de alta calidad por así decirlo
Mi sospecha es que el RL que harías para rectificar los efectos de los datos erróneos no es lo suficientemente amplio como para realmente contrarrestarlo.