X (Twitter)

También predigo que la granularidad tiene una ley de escala compleja que depende de las características específicas de la arquitectura y el entrenamiento, y que los modelos más grandes (Ant se detiene en 28 mil millones de elementos en total) tienen una granularidad óptima mayor que la que usamos actualmente.

Pensándolo bien, para que mi Flash especulativo tuviera un patrón experto de 16/3200, ¡esos expertos tendrían que ser diminutos! Y no creo que sea lo óptimo. Por otro lado: este artículo sobre memes y el hecho de que Qwen3-Next ya utiliza expertos de esa envergadura (si mis cálculos son correctos).

Hilo de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Información del autor

Contenido del hilo