X (Twitter)

Hablando de eso, sospecho que la versión 4 será muy diferente. La fórmula que conocemos, DS-MoE, tiene dos años; simplemente la ampliaron, cambiaron la atención dos veces (MHA =>MLA =>DSA-prototipo), ajustaron el MTP, el enrutamiento y el balanceo de carga. Sin duda, son capaces de un cambio mucho mayor.

Espero que 1) profundicen mucho más en la compresión y el cálculo latente, al estilo de ZAYA, y 2) aumenten significativamente la escasez, quizás eliminando por completo los MoE, trabajando directamente con circuitos de mundo pequeño o explorando algo similar a los UT. Si no en la versión 4, entonces en los próximos artículos.

Hilo de Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞) (@teortaxesTex)

Información del autor

Contenido del hilo