C'est une publication *extraordinaire*. Zyphra est l'un des laboratoires les plus pointus et pourtant très sous-estimé. J'espère que cela changera maintenant qu'ils forment AMD au ML. CCGQA est en quelque sorte MLA+, ils ont surpassé Qwen3-4B avec 760 millions d'utilisateurs actifs, et l'article est d'une densité incroyable. À lire absolument.
Bon, « surpasser » est un terme fort ; c’est indéniablement plus efficace et le modèle de base est à égalité, mais il faudra encore beaucoup de travail pour égaler le post-entraînement abouti de Qwen, qu’ils réservent pour plus tard. Mais on dispose déjà de nombreuses connaissances sur le post-entraînement.




