GDM이 헛소리라는 우스꽝스럽고 암묵적이지만 널리 퍼져 있는 가정이 있습니다. DeepSeek은 "트랜스포머의 구조적 한계를 돌파"하겠다고 발표했지만, MLA/NSA/DSA는 Vaswani 등의 작업을 하는 더 저렴한 방법일 뿐입니다. 희망은 다른 차원에 있습니다. 진짜라면.
아무도 이 논문들을 복제하려 하지 않아요. 정말 미친 짓이라고 생각해요. Whale 논문도 아무도 복제하지 않았죠. R1로 오픈소스 경쟁을 완전히 압도하며 DS-MoE+DSMAth+GRPO 스택의 우월성을 증명하기 전까지는요. 지금은 기본이 됐지만, "작다"는 거죠. GDM은 GDM일 뿐이에요.

