Aún debemos encontrar esta ley de escalamiento, pero mi impresión actual es que la memorización tiene una relación directa entre la densidad de datos en las muestras, el sobremuestreo sintético, el número de parámetros y la eficiencia de aprendizaje de la arquitectura del modelo.
Los buenos pipelines sintéticos no solo resuelven el punto 2), sino también el punto 4), ya que pueden ejecutar experimentos controlados y verificar directamente la precisión de la recuperación en lugar de perder tiempo con un proxy extraño (por favor, dejen morir a hellaswag).