韓国(アップステージ)は、ブラックウェルズで「エンタープライズグレード」であると主張する100BクラスのMoEを事前訓練しました。 これまで大きな話題となった太陽モデルは 10.7B で、Mixtral 8x7B に匹敵する深度アップスケーリングの Mistral-7B の興味深い実験でした。
DS-MoE をあちこちで見るのは飽き飽きしていることを認めます。 ホエールはもう一度、これを再発明しなければならない。Googleの論文を読み、使えるアイデアの核を見極め、自分のアイデアを加えれば、あと2年はみんな「ああ、当然だ」と思うだろう。
