Un análisis profundo del tamaño del rango de RL Lora refuerza mi sensación general de que existen leyes de escalamiento de razonamiento esfuerzo computacional esperando ser descubiertas.
Ahora que por fin tengo acceso a entornos sintéticos controlados, observo una disyuntiva similar en el preentrenamiento. Por ejemplo, apilar capas resulta más beneficioso para algunas tareas/dominios (matemáticas) que para otros.
