Analyse approfondie de la taille du rang RL lora, ce qui renforce mon sentiment général qu'il existe des lois de mise à l'échelle du raisonnement de l'effort de calcul qui restent à découvrir.
Maintenant que je dispose enfin d'environnements synthétiques contrôlés, j'observe un compromis similaire au niveau du pré-entraînement. Par exemple, l'empilement de couches est encore plus bénéfique pour certaines tâches/domaines (mathématiques) que pour d'autres.
