X (Twitter)

Corazonada muy agresiva y posiblemente muy retrasada: Es Flash 3, y tiene una capacidad total de 1,2 TB y 12 B de memoria activa. Pro es como 30-3200 Sus sistemas lo permiten, Google es inigualable en cuanto a ahorro de costos, y nosotros (gracias a @AntLingAGI) sabemos que una escasez superior al 99% sigue generando una ventaja en la eficiencia.

También predigo que la granularidad tiene una ley de escala compleja que depende de las características específicas de la arquitectura y el entrenamiento, y que los modelos más grandes (Ant se detiene en 28 mil millones de elementos en total) tienen una granularidad óptima mayor que la que usamos actualmente.

Pensándolo bien, para que mi Flash especulativo tuviera un patrón experto de 16/3200, ¡esos expertos tendrían que ser diminutos! Y no creo que sea lo óptimo. Por otro lado: este artículo sobre memes y el hecho de que Qwen3-Next ya utiliza expertos de esa envergadura (si mis cálculos son correctos).

Hilo de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Información del autor

Contenido del hilo