Kimi-Linear (Versão Podada)! A Cerebras parece ter descoberto a chave para a geração de tráfego e começou a modificar freneticamente modelos domésticos de grande escala. (A Cerebras é uma fornecedora de infraestrutura que oferece aceleração de hardware para a execução de modelos de grande porte; ela pode gerar até 2000 tokens/s para modelos grandes.) Acabaram de lançar o Kimi-Linear-REAP-35B-A3B-Instruct, que é uma versão modificada do Kimi-Linear-48B-A3B-Instruct de alguns dias atrás. Os parâmetros foram reduzidos de 48B para 35B, mas o desempenho realmente melhorou? (Após grandes modificações, pequenos ajustes geralmente são feitos para garantir o efeito.) LiveCodeBench, AIME25 e HumanEval mostraram melhorias. Atualmente, estou testando o desempenho de recall do modelo 48B-A3B localmente. Testarei ambos e divulgarei os resultados posteriormente para verificar se este modelo é adequado para uso local. Endereço do modelo:
Parâmetros do modelo
Dados de desempenho







