Intuition très agressive et peut-être très stupide : Il s'agit de Flash 3, et sa mémoire totale est de 1,2 To (12 octets actifs). Pro coûte environ 30-3200. Leurs systèmes le permettent, Google est inégalé en matière d'économies de bouts de chandelle, et nous savons (merci @AntLingAGI) qu'une sparsité >99% continue de générer des gains d'efficacité.
Je prévois également que la granularité obéit à une loi d'échelle complexe, dépendant des spécificités de l'architecture et de l'entraînement, et que les modèles plus grands (Ant s'arrête à 28 milliards d'éléments au total) ont une granularité optimale plus élevée que celle que nous utilisons actuellement.
En y réfléchissant, pour que mon Flash hypothétique ait un motif expert de 16/3200, ces experts devraient être minuscules ! Et je ne pense pas que ce soit optimal. D'un autre côté : cet article sur les mèmes et le fait que Qwen3-Next utilise déjà des experts de cette envergure (si mes calculs sont exacts).


