X (Twitter)

Este es un lanzamiento *extraordinario*. Zyphra es uno de los laboratorios más sofisticados y está muy subestimado, lo cual espero que cambie ahora que tienen un trabajo enseñando a AMD a hacer ML. CCGQA es básicamente MLA+; superaron a Qwen3-4B con 0.76B activo; el artículo es increíblemente denso. Léanlo.

Bueno, «superar» es una palabra fuerte; sin duda es más eficiente y el modelo base está a la par, pero requerirá bastante trabajo para igualar el post-entrenamiento maduro de Qwen, que dejan para más adelante. Pero ahora hay mucho conocimiento post-entrenamiento.

Hilo de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Información del autor

Contenido del hilo