X (Twitter)

有一種有趣的、不言而喻但卻普遍存在的假設，認為 GDM 是在胡扯。 DeepSeek 宣布打算“突破 Transformer 的架構限制”，但 MLA/NSA/DSA 只不過是 Vaswani 等人提出的更便宜的實現方式而已。希望是另一個層次的。如果屬實。

沒人嘗試復現這些論文。我覺得這太不可思議了。 Whale 的論文也一樣，直到他們推出 R1，徹底碾壓開源競爭對手，證明了他們的 DS-MoE+DSMath+GRPO 技術堆疊的優越性。現在它已經成為預設值。但他們規模「小」。 GDM 就是 GDM。

來自 Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)（@teortaxesTex）的推文串