Este es un lanzamiento *extraordinario*. Zyphra es uno de los laboratorios más sofisticados y está muy subestimado, lo cual espero que cambie ahora que tienen un trabajo enseñando a AMD a hacer ML. CCGQA es básicamente MLA+; superaron a Qwen3-4B con 0.76B activo; el artículo es increíblemente denso. Léanlo.
Bueno, «superar» es una palabra fuerte; sin duda es más eficiente y el modelo base está a la par, pero requerirá bastante trabajo para igualar el post-entrenamiento maduro de Qwen, que dejan para más adelante. Pero ahora hay mucho conocimiento post-entrenamiento.




