O que realmente define um modelo barato e abundante? (Reclinação tática) Boas notícias para a implantação local de modelos de grande porte! Apresentamos uma análise técnica do recém-lançado Kimi-Linear-48B-A3B, da Dark Side of the Moon! Eis uma versão em uma frase: Este é o verdadeiro modelo de comida rápida barata e abundante. O modelo 48B-A3B atinge 1 MB de contexto mantendo a atenção linear, resultando em um consumo de memória muito baixo. Os modelos de atenção tradicionais apresentam um consumo de memória exponencial à medida que o comprimento do contexto aumenta, enquanto o uso de memória deste modelo é linear, tornando-o perfeitamente adequado para uso em CPU. Já estou baixando e pretendo adicioná-lo aos meus modelos locais de uso frequente. A maior incerteza no momento é a taxa de retenção. Pretendo baixar o aplicativo, inserir alguns romances nele, consultar o modelo sobre os detalhes e observar seu desempenho para avaliar o efeito de retenção. Quem quiser ver os resultados, curta esta publicação. Se ela atingir mais de 100 curtidas, publicarei a análise neste fim de semana.
Parâmetros básicos
Dados comparativos
Erro de digitação: O crescimento da memória de atenção tradicional é quadrático.








