有一種有趣的、不言而喻但卻普遍存在的假設,認為 GDM 是在胡扯。 DeepSeek 宣布打算“突破 Transformer 的架構限制”,但 MLA/NSA/DSA 只不過是 Vaswani 等人提出的更便宜的實現方式而已。 希望是另一個層次的。 如果屬實。
沒人嘗試復現這些論文。我覺得這太不可思議了。 Whale 的論文也一樣,直到他們推出 R1,徹底碾壓開源競爭對手,證明了他們的 DS-MoE+DSMath+GRPO 技術堆疊的優越性。現在它已經成為預設值。但他們規模「小」。 GDM 就是 GDM。

