X (Twitter)

Je prévois également que la granularité obéit à une loi d'échelle complexe, dépendant des spécificités de l'architecture et de l'entraînement, et que les modèles plus grands (Ant s'arrête à 28 milliards d'éléments au total) ont une granularité optimale plus élevée que celle que nous utilisons actuellement.

En y réfléchissant, pour que mon Flash hypothétique ait un motif expert de 16/3200, ces experts devraient être minuscules ! Et je ne pense pas que ce soit optimal. D'un autre côté : cet article sur les mèmes et le fait que Qwen3-Next utilise déjà des experts de cette envergure (si mes calculs sont exacts).

Fil de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Informations sur l'auteur

Contenu du fil