Existe la curiosa, tácita pero generalizada suposición de que GDM es una tontería. DeepSeek ha anunciado su intención de «superar las limitaciones arquitectónicas de Transformer», pero MLA/NSA/DSA son solo formas más económicas de hacer un Vaswani et al. La esperanza está en otra liga. Si es real.
Nadie intenta replicar estos artículos. Me parece una locura. Nadie replicaba los artículos de Whale, hasta que aplastaron a la competencia del código abierto con R1, demostrando la superioridad de su conjunto DS-MoE+DSMath+GRPO. Ahora es la opción predeterminada. Pero son "pequeños". GDM es GDM.

