Il existe cette drôle d'idée, tacite mais très répandue, selon laquelle GDM raconte n'importe quoi. DeepSeek a annoncé son intention de « dépasser les limitations architecturales de Transformer », mais MLA/NSA/DSA ne seraient que des solutions moins coûteuses pour réaliser une opération similaire à celle de Vaswani et al. L'espoir, c'est autre chose. Si c'est vrai.
Personne ne cherche à reproduire ces articles. Je trouve ça aberrant. Personne n'a reproduit les articles de Whale non plus, jusqu'à ce qu'ils écrasent la concurrence open source avec R1, prouvant la supériorité de leur pile DS-MoE+DSMath+GRPO. C'est désormais la solution par défaut. Mais ils sont « petits ». GDM reste GDM.

