Existe uma suposição engraçada, tácita, mas generalizada, de que a GDM está blefando. A DeepSeek anunciou a intenção de «romper com as limitações arquitetônicas do Transformer», mas MLA/NSA/DSA são apenas maneiras mais baratas de fazer um Vaswani e outros. A esperança está em outro patamar. Se for verdade.
Ninguém tenta replicar esses artigos. Acho isso insano. Ninguém replicou os artigos do Whale também, até que eles esmagaram a concorrência de código aberto com o R1, provando a superioridade de sua pilha DS-MoE+DSMath+GRPO. Agora é o padrão. Mas eles são "pequenos". GDM é GDM.

