Je pense que nous ne comprenons pas encore le comportement des MoE de si grande taille (en particulier avec les architectures post-DSMoE avancées). Mais nous savons que la mise à l'échelle est bonne avec un taux de 0,8 % même pour un total d'environ 28 milliards de données. Et des méthodes ingénieuses pour exploiter la sparsité au-delà d'une granularité plus fine deviennent possibles. J'estime qu'un taux de 1 % à 10 To est une estimation prudente.
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
