有一种有趣的、不言而喻但却普遍存在的假设,认为 GDM 是在胡扯。DeepSeek 宣布打算“突破 Transformer 的架构限制”,但 MLA/NSA/DSA 只不过是 Vaswani 等人提出的更便宜的实现方式而已。 希望是另一个层次的。 如果属实。
没人尝试复现这些论文。我觉得这太不可思议了。Whale 的论文也一样,直到他们推出 R1,彻底碾压开源竞争对手,证明了他们的 DS-MoE+DSMath+GRPO 技术栈的优越性。现在它已经成为默认设置。但他们规模“小”。GDM 就是 GDM。

