GDMはデタラメだという、おかしな、暗黙の、しかし広く信じられている思い込みがあります。DeepSeekは「Transformerのアーキテクチャ上の限界を打ち破る」という意向を表明していますが、MLA/NSA/DSAはVaswaniらのやり方をもっと安価に実現する方法に過ぎません。 希望は別のレベルにあります。 本当なら。
これらの論文を再現しようとする人は誰もいません。それはおかしいと思います。Whaleの論文も、オープンソースの競合をR1で圧倒し、DS-MoE+DSMath+GRPOスタックの優位性を証明して初めて、誰も再現しました。今ではそれがデフォルトになっています。ただし、それらは「小規模」です。GDMはGDMです。

