Voici une autre version, un modèle à 19 millions de paramètres, après le traitement d'un milliard de jetons.
J'ai presque épuisé tous mes crédits Colab ; avec une puissance de calcul suffisante, il peut être entièrement entraîné en quelques heures seulement.
