X (Twitter)

¿Qué define realmente un modelo barato y abundante? (Reclinación táctica) ¡Buenas noticias para el despliegue local de modelos grandes! ¡Les traemos un análisis técnico del recién lanzado Kimi-Linear-48B-A3B de Dark Side of the Moon! Aquí va una versión en una sola frase: Este es el verdadero modelo de comida rápida barata y abundante. El modelo 48B-A3B alcanza 1 MB de contexto manteniendo una atención lineal, lo que resulta en un consumo de memoria muy bajo. Los modelos de atención tradicionales experimentan un consumo de memoria exponencial a medida que aumenta la longitud del contexto, mientras que el uso de memoria de este modelo es lineal, lo que lo hace ideal para el uso de la CPU. Ya lo estoy descargando y planeo agregarlo a mis modelos locales de uso frecuente. La mayor incertidumbre ahora mismo es la tasa de recuperación. Planeo descargar la aplicación, introducir algunas novelas, consultar los detalles del modelo y ver qué tal responde para evaluar el efecto de recuperación. Si queréis ver los resultados, dadle a "Me gusta" a esta publicación. Si supera los 100 "Me gusta", publicaré la reseña este fin de semana.

Parámetros básicos

Datos comparativos

Error tipográfico: El crecimiento de la memoria de atención tradicional es cuadrático.

Hilo de karminski-牙医 (@karminski3)

Información del autor

Contenido del hilo