そういえば、V4は大きく変わるのではないかと考えています。私たちが知っているレシピ、DS-MoEは2年前のものです。彼らはそれをスケールアップし、2回(MHA=>MLA=>DSAプロトタイプ)アテンションを変更し、MTP、ルーティング、負荷分散を調整しただけです。彼らは間違いなく、はるかに大きな変化を起こす能力を持っています。
彼らが1) ZAYAのように圧縮と潜在計算をより深く掘り下げ、2) スパース性を大幅に高め、MoEを完全に放棄し、スモールワールド回路を直接扱うか、UTのようなものを探求することを期待しています。V4ではなくても、次の論文ではそうなるでしょう。