また、粒度にはアーキテクチャとトレーニングの詳細に依存する複雑なスケーリング法則があり、より大きなモデル(Antは合計28Bで停止)では、現在使用しているものよりも高い最適な粒度を持つことが予測されます。
しかし、もう一度考えてみると、私の投機的なフラッシュが16/3200のエキスパートパターンを持つためには、それらのエキスパートは非常に小さい必要があります!!、そして私はこれが最適だとは思いません。 一方、このミーム論文とQwen3-Nextがすでにその規模の専門家を使用しているという事実(私の計算が正しければ)

