Kimi-Linear (Versión podada). Cerebras parece haber encontrado la clave para la generación de tráfico y ha comenzado a modificar frenéticamente modelos domésticos a gran escala. (Cerebras es un proveedor de infraestructura que ofrece aceleración por hardware para ejecutar modelos grandes; pueden generar hasta 2000 tokens/s para modelos grandes). Acaban de publicar Kimi-Linear-REAP-35B-A3B-Instruct, que es una versión modificada de Kimi-Linear-48B-A3B-Instruct de hace unos días. Los parámetros se redujeron de 48B a 35B, pero ¿mejoró el rendimiento? (Tras modificaciones importantes, suelen realizarse ajustes menores para asegurar el efecto). LiveCodeBench, AIME25 y HumanEval mostraron mejoras. Actualmente estoy probando el rendimiento de recuperación de memoria del modelo 48B-A3B a nivel local. Probaré ambos modelos y publicaré los resultados más adelante para determinar si este modelo es adecuado para su uso local. Dirección del modelo:
Parámetros del modelo
Datos de rendimiento







