X (Twitter)

Kimi tornou o K2-Thinking um projeto de código aberto, surpreendendo a todos com uma grande novidade! HLE (44,9) e IMO (76,8) são os melhores do mundo! Experimentei assim que possível e gostaria de aproveitar esta oportunidade para apresentar seu pacote completo de programação (modelos, CLI, associação). Abaixo seguem instruções de uso detalhadas e testes 👇

Com preguiça de mp.weixin.qq.com/s/54qHLvw2VK3r…? 🚧 Você pode ler o artigo completo: https://t.co/rFJAwyOrNa

Primeiramente, gostaria de apresentar os detalhes da atualização do modelo: Atualização baseada em agentes: capacidade nativa de "pensar e usar ferramentas simultaneamente", com raciocínio e invocação autônomos e contínuos em múltiplas rodadas, até cerca de 300 rodadas. Estado da arte da inferência (SOTA): HLE (44,9) e IMO (76,8) alcançaram as pontuações mais altas até o momento, com melhorias significativas na recuperação complexa e no planejamento de longo prazo. Programação aprimorada: a codificação agentiva é mais estável e o desempenho de benchmark de projetos front-end (HTML/React/baseados em componentes) e multilíngues é melhorado. Capacidades básicas gerais aprimoradas: a escrita criativa torna-se mais rítmica e aprofundada; a análise em cenários acadêmicos e de pesquisa torna-se mais rigorosa e a estrutura mais clara; a lógica e o estilo permanecem estáveis em tarefas de formato longo. Melhoria de eficiência: O INT4 nativo (somente pesos QAT+MoE) mantém o desempenho durante decodificações longas, com uma melhoria na velocidade de geração de aproximadamente 2×.

Além disso, durante esse período, Kimi não se concentrou apenas em modelos na área de programação, mas também considerou o ecossistema circundante e como tornar o uso da programação K2 mais conveniente e acessível para todos. Eles lançaram sua própria ferramenta de linha de comando para programação de IA, a Kimi CLI, que é fácil de instalar e usa o código básico de Lazio Claude. Eles também adicionaram um pacote de API chamado KFC, que custa 199 yuans e oferece 7.168 chamadas por semana, o que é mais do que suficiente.

Primeiramente, vejamos como usar de forma fácil e rápida o modelo K2-Thinking atualizado através da família de softwares Kimi. Precisamos adquirir uma assinatura do programa Kimi Apollo, o que pode ser feito diretamente no site oficial. Além disso, se você já tiver dado gorjeta para Kimi, o valor será creditado em sua conta após a primeira ativação do serviço, o que é muito generoso. Há um problema de design aqui. Se você quiser obter a chave da API do Kimi For Coding, precisa clicar no texto destacado na imagem abaixo e copiá-lo. Esperamos que isso possa ser alterado posteriormente, talvez adicionando essa opção às configurações.

Em seguida, podemos instalar o Kimi CLI. Se você ainda não instalou o UV, primeiro precisa instalá-lo no terminal. Em seguida, você pode instalar o Kimi CLI usando este código. uv tool install --python 3.13 kimi-cli Após a instalação, abra o diretório do seu projeto no terminal e digite "kimi" para iniciar a CLI do Kimi. Ao iniciar o aplicativo pela primeira vez, você será solicitado a escolher um método de login. Selecione a primeira opção e insira a chave de API que você acabou de obter do KFC. Uma vez dentro, pressione a tecla Tab para ativar o pensamento. Nesse ponto, o modelo de pensamento K2 será utilizado. A mesma operação se aplica para ativar o pensamento no Código Claude.

Claro, isso ainda pode ser usado no Cluade Code. Se você achar a configuração de variáveis de ambiente problemática, pode usar meu projeto "ai-claude-start". Ao criá-lo, preencha as seguintes informações.

Em seguida, vem o teste do modelo. Primeiramente, proporei um requisito básico para um aplicativo web de lista de tarefas e, em seguida, adicionarei, modificarei e solicitarei continuamente recursos adicionais, observando o resultado após dez rodadas de modificações. Como podem ver, este é o processo de adição gradual de funcionalidades, desde o aplicativo inicial rudimentar de tarefas até se tornar um produto quase completo. À medida que os requisitos evoluíam, tornavam-se cada vez mais complexos, incluindo funcionalidades como arrastar e soltar e uma grande reformulação para adaptação a dispositivos móveis. Isso foi acompanhado por mudanças na interface do usuário devido à adição de novos recursos, mas a K2-Thinking lidou com todas essas questões de uma só vez. Na terceira vez, um problema de interface do usuário causado pela adição de novos recursos foi corrigido na quarta vez, o que é realmente incrível.

Também tentei este teste com outros modelos. O Claude 4.5 funcionou, mas o Codex não. Abaixo está o aspecto do Codex CLI após a sétima rodada de modificações. É um cenário bastante desolador; o produto está praticamente inutilizável e ele o arruinou.

Em seguida, foi realizado um teste das habilidades de busca de Kimi na linha de comando: pesquisar o estilo de design da página inicial do produto Linear e, em seguida, escrever uma página da web que replicasse o estilo de design da página desse produto. Ele usou ferramentas de busca para encontrar alguns artigos sobre projeto linear e, em seguida, resumiu as características do projeto linear, expandindo as instruções e requisitos originais. A parte mais difícil foi o botão magnético e o efeito de luz ao passar o cursor do mouse sobre o cartão, que também eram elementos centrais do design do Linear anterior, e ele resolveu todos eles. Eu também tentei usar essa dica no Claude Code para fazer o Claude 4.5 funcionar, mas o Claude 4.5 ainda não conseguiu fazer a animação do botão magnético e o efeito de gradiente ao passar o mouse funcionarem.

O próximo teste examinará a lógica de negócios complexa. Peça a ele para criar uma ferramenta de fluxograma que oculte muitos conflitos e armadilhas da lógica interativa, como conflitos entre arrastar e clicar, e conexões vinculadas a componentes. Em relação aos problemas de conflito que poderiam facilmente surgir ao arrastar e conectar linhas, esse cara esperto simplesmente criou um botão de troca de modo, o que resolveu o problema. Ao conectar os fios, a função opera normalmente e o caminho é razoável, sem dar voltas. Ao mesmo tempo, os nós de julgamento lógico adicionam automaticamente rótulos de "sim" e "não". Parece que, após adquirir capacidade de raciocínio, consegue lidar muito bem com esse tipo de lógica complexa com armadilhas.

O próximo passo foi testar sua capacidade de processar APIs, recuperar dados e visualizá-los, o que o levou a criar um painel de controle de blockchain com altos requisitos de visualização. Os resultados mostram que a execução foi bastante boa. A API correta foi chamada para recuperar os dados, e as anotações de visualização e a ordenação necessárias foram implementadas. O gráfico de linhas detalhado que aparece após clicar nos dados detalhados também foi adicionado, juntamente com animações de expansão/recolhimento e dados detalhados ao passar o cursor.

Por fim, aqui está um trecho de código que apresenta alguns problemas. Vamos ver se conseguimos identificá-los e resolvê-los. Para corrigir o problema de lentidão e melhorar a velocidade de busca, pedi a outra IA que criasse uma página web com uma lista de cinco perguntas, renderizando uma lista enorme de uma só vez. O curioso é que ele não só resolveu o problema, como também adicionou um componente de monitoramento de desempenho, permitindo visualizar os detalhes dos dados corrigidos em tempo real durante a execução e teste da página web, possibilitando ver o efeito pelos dados em vez de apenas pela sua percepção.

Embora The Dark Side of the Moon seja um dos seis pequenos dragões da China, seu valor representa apenas 0,5% do patrimônio da OpenAI e 2% do da Anthropic em nível global. Esta pequena empresa nacional alcançou dois resultados de última geração (SOTA) em conjuntos de testes extremamente desafiadores, e estes não são resultados SOTA nacionais ou de código aberto, mas sim resultados SOTA globais! Antes da publicação do post, vi um comentário no tweet deles que refletia a opinião de muitos usuários estrangeiros. Tenho visto conteúdo semelhante com frequência ultimamente.

Thread de 歸藏(guizang.ai) (@op7418)

Informações do autor

Conteúdo da thread