これは、MoE モデルのトレーニングが (比較的) どれほど取り組みやすいかを議論するのに役立つ、基本的な推論数学に関する素晴らしいスレッドです。 ローカル使用以外のあらゆる用途では、MoE の方が明らかに優れていると思います。