Na noite passada, a equipe de treinamento de Kimi K2 realizou uma sessão de perguntas e respostas (AMA) no canal LocalLLaMA do Reddit. Analisei as avaliações do K2-Thinking feitas por usuários estrangeiros e elas são bastante diferentes das avaliações de usuários nacionais na minha seção de comentários. Usuários no exterior são relativamente menos sensíveis ao preço. Claro, eles também mencionaram que existem alguns problemas com a cobrança por número de chamadas em vez de por token. No geral, isso ainda está relacionado ao foco deles em tecnologia e qualidade, bem como às características do canal LocalLLaMA. Eles também responderam a muitas perguntas na sessão de perguntas e respostas de ontem à noite, e eu compilei algumas das mais informativas: ---------------------------- O sistema KDA será utilizado no próximo modelo topo de linha, o Kimi? Quais são as suas vantagens? Os híbridos KDA com NoPE MLA superam os tradicionais MLA + RoPE. É mais rápido, mais econômico e mais eficiente tanto nas fases de pré-treinamento quanto nas de aprendizado por reforço. Isso permite um pré-treinamento e implantação mais rápidos, além de atender a um número maior de usuários. Pode ser usado no treinamento do K3. O K2 terá uma versão em Linguagem Visual (LV)? Sim, está em andamento. O modelo K2 claramente não agrada tanto ao usuário (não favorece) quanto outros modelos. Isso foi intencional? Ou é resultado do pós-treinamento? A personalidade não conformista do K2 é projetada por meio de uma cuidadosa seleção de dados. Tanto o pré-treinamento quanto o pós-treinamento contribuem para esse estilo. O pré-treinamento codifica os conhecimentos prévios relevantes, enquanto o pós-treinamento adiciona seu próprio toque. O método de cobrança atual do Kimi for Coding é baseado no número de requisições à API, o que é extremamente opaco. Uma única solicitação pode desencadear várias requisições. Seria possível alterar isso para ser baseado em um token ou em uma solicitação específica? Atualmente, a cobrança é feita com base no número de solicitações, pois isso é visível para os usuários e se alinha melhor à sua estrutura de custos. No entanto, entendemos a confusão dos usuários e consideraremos melhorias. Você acha que fp4 representa uma melhoria significativa em relação ao int4? Ou o int4 já é uma codificação suficientemente boa? A escolha do int4 visa maior compatibilidade com GPUs que não sejam Blackwell, além de aproveitar o kernel Marlin de inferência int4 já existente. O modelo de pensamento do K2 é mais robusto que o do GPT-5, mas sua velocidade de resposta é muito mais lenta. Deveríamos, deliberadamente, fazê-lo "pensar por mais tempo"? Embora reconhecendo que o K2-Thinking é mais detalhado e demorado na fase de inferência, otimizações estão em andamento. Focar em proxies de texto simples é um sacrifício de curto prazo para alcançar o estado da arte (SOTA) ou uma aposta de longo prazo? Obter os dados e o treinamento adequados para o modelo de linguagem visual (VL) leva tempo, então optamos por lançar primeiro o modelo de texto. A taxa de treinamento de US$ 4,6 milhões da K2 Thinking é real? Esses não são números oficiais. É difícil quantificar os custos de treinamento porque grande parte deles está relacionada à pesquisa e experimentação. Qual foi o maior desafio que você enfrentou ao criar o K2 Thinking? Obrigado! Um dos desafios é dar suporte ao padrão intercalado "pensar-ferramenta-pensar-ferramenta". Esse é um comportamento relativamente novo em LLMs e requer muito trabalho para funcionar corretamente. Após vários meses de avaliação, o K2 Thinking conseguiu identificar problemas que passaram despercebidos pelo Sonnet 4.5 e pelo Opus 4.1. Francamente, parece que o K2 Thinking está a apenas um comando do sistema de atingir o mesmo nível de desempenho. Isso se deve à nova arquitetura? Ou a qualidade dos dados de treinamento também melhorou? Acredito que dispor de métodos de avaliação e dados adequados é crucial para o desempenho. A arquitetura e os otimizadores melhoram a eficiência da amostragem. Que tipo de hardware você usa para sua infraestrutura de treinamento? Gostaria de saber como sua infraestrutura se compara às infraestruturas usadas por grandes empresas americanas. Usamos placas de vídeo H800 com Infiniband; elas não eram tão boas quanto as placas de vídeo de ponta dos EUA, e não havia tantas unidades disponíveis, mas aproveitamos ao máximo cada placa.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
