X (Twitter)

Kimi-K2-Thinking: @Kimi_Moonshot lançou recentemente um modelo de código aberto para raciocínio profundo e funcionalidade de agentes inteligentes. Não se trata apenas de um mecanismo de inferência de alta eficiência, mas também de um sistema com recursos de agentes inteligentes integrados, permitindo a invocação dinâmica de ferramentas em tarefas complexas para realizar o processamento de ponta a ponta, desde simples perguntas e respostas até fluxos de trabalho autônomos com centenas de etapas. Este modelo marca a evolução de grandes modelos de linguagem em direção a maior autonomia e praticidade, destacando-se especialmente em áreas como programação, pesquisa e escrita. Projeto Central: Mecanismo de "Pensamento" Eficiente sob a Arquitetura do Ministério da Educação O Kimi-K2-Thinking adota a arquitetura MoE com uma escala total de parâmetros de 1T, mas apenas 32B de parâmetros de ativação. Isso significa que ele é mais eficiente em termos de recursos computacionais — apenas alguns especialistas são ativados por token, evitando a sobrecarga redundante de um modelo com todos os parâmetros. Os parâmetros específicos incluem: 61 camadas (incluindo 1 camada densa), uma dimensão oculta de 7168 para a camada de atenção e 2048 por especialista no MoE, 384 especialistas (8 selecionados por token, incluindo 1 especialista compartilhado), 64 cabeças de atenção, função de ativação SwiGLU, mecanismo de atenção MLA, um vocabulário de 160.000 palavras e suporte para um comprimento de contexto de 256K. Este design permite que o modelo mantenha baixa latência ao processar sequências longas, enquanto gera caminhos de inferência progressivos por meio do mecanismo CoT. Ao contrário da saída linear dos modelos tradicionais, ele alterna entre raciocínio e invocação de ferramentas, formando um ciclo fechado: o modelo primeiro "pensa" sobre a decomposição do problema, depois invoca ferramentas externas para obter dados e, finalmente, integra a saída. Esse processo inteligente, semelhante a um agente, é particularmente adequado para tarefas que exigem verificação iterativa, como resolução de problemas matemáticos ou depuração de código. Principais inovações: Os maiores destaques do modelo de treinamento de quantização e estabilidade a longo prazo residem em duas grandes otimizações de engenharia: Primeiro, a quantização nativa INT4, que comprime os pesos para precisão de inteiro de 4 bits por meio de treinamento com reconhecimento de quantização (QAT), alcançando um aumento de aproximadamente 2x na velocidade de inferência, enquanto reduz o uso de memória da GPU em mais de 50%. Esta não é uma quantização pós-processamento, mas sim integrada desde o início do treinamento, garantindo perda mínima de precisão (comparável a FP16 na maioria dos benchmarks). Segundo, estabilidade do agente a longo prazo. Os modelos tradicionais tendem a "perder o rumo" após 30 a 50 chamadas de ferramentas, mas o Kimi-K2-Thinking pode ser executado de forma estável por 200 a 300 passos, mantendo o comportamento orientado a objetivos. Isso se deve a uma estratégia de treinamento dedicada, incluindo ajuste fino por aprendizado por reforço (RLHF) e dados simulados para uso de ferramentas, ajudando o modelo a manter a consistência em múltiplas rodadas de interação. Essas inovações permitem que os modelos passem de uma "resposta passiva" para uma "exploração ativa", tornando-os adequados para cenários do mundo real, como buscas na web, geração de código ou análise multimodal. Desempenho: Liderança em Benchmarking. O Kimi-K2-Thinking demonstrou um desempenho sólido em diversas avaliações, superando principalmente os concorrentes em tarefas "pesadas" com ferramentas. Por exemplo, no benchmark de inferência Humanity's Last Exam (HLE), alcançou uma pontuação de 23,9% sem ferramentas, 44,9% com ferramentas e 51,0% em cenários com uso intensivo de ferramentas. Na tarefa matemática AIME25, obteve 94,5% sem ferramentas, 99,1% com ferramentas e 100,0% com uso intensivo de ferramentas. Sua pontuação no benchmark de conhecimento geral MMLU-Pro alcançou 84,6%. No benchmark de busca de agentes BrowseComp, alcançou 60,2%; na tarefa de programação SWE-bench Verified, 71,3%; no LiveCodeBenchV6, 83,1%; e no benchmark de agentes Seal-0, 56,3%. Merece destaque especial o seu resultado de 62,3% em tarefas em chinês, como o BrowseComp-ZH. Esses resultados demonstram a confiabilidade do modelo em ambientes complexos e com múltiplas etapas. As aplicações práticas e o modelo de suporte ao ecossistema são hospedados em código aberto no Hugging Face, com suporte a APIs compatíveis com OpenAI/Anthropic para fácil integração. Em uso, chamadas de chat ou utilitários podem ser implementadas com código Python simples. Por exemplo, em um chat básico, você insere uma pergunta e o modelo retorna a resposta juntamente com o raciocínio (reasoning_content). Para chamadas de utilitários, você define uma função (como uma consulta de previsão do tempo) e o modelo decide automaticamente quando chamá-la, iterando por várias rodadas para obter os resultados. A licença é MIT Modificada, permitindo o uso comercial, mas sujeita aos termos de código aberto. A Moonshot AI também fornece guias de implantação (para frameworks como vLLM/SGLang) e documentação de uso das ferramentas, permitindo que os desenvolvedores comecem rapidamente. No geral, esse modelo reduz a barreira de entrada para o desenvolvimento de agentes inteligentes, impulsionando a IA do laboratório para o ambiente de produção.

Thread de meng shao (@shao__meng)

Informações do autor

Conteúdo da thread