X (Twitter)

¡Kimi liberó el código fuente de K2-Thinking, sorprendiendo a todos con una gran sorpresa! ¡HLE (44.9) e IMO (76.8) son los mejores del mundo! Lo probé lo antes posible y me gustaría aprovechar esta oportunidad para presentarles su paquete completo de programación (modelos, CLI, membresía). A continuación se detallan las instrucciones de uso y las pruebas 👇

¿Te da pereza esmp.weixin.qq.com/s/54qHLvw2VK3r…s obras? 🚧 Puedes leer el artículo completo: https://t.co/rFJAwyOrNa

Permítanme primero presentarles los detalles de la actualización del modelo: Actualización basada en agentes: de forma nativa, "piensa y usa herramientas al mismo tiempo", capaz de razonamiento e invocación autónomos y continuos en múltiples rondas, hasta aproximadamente 300 rondas. Estado del arte de la inferencia (SOTA): HLE (44,9) e IMO (76,8) han alcanzado las puntuaciones más altas hasta la fecha, con mejoras significativas en la recuperación compleja y la planificación a largo plazo. Programación mejorada: La codificación con agentes es más estable y se mejora el rendimiento de referencia de los proyectos front-end (HTML/React/basados en componentes) y multilingües. Mejora de las capacidades básicas generales: La escritura creativa se vuelve más rítmica y profunda; el análisis en escenarios académicos y de investigación se vuelve más riguroso y la estructura es más clara; la lógica y el estilo se mantienen estables en tareas de formato largo. Mejora de la eficiencia: Native INT4 (solo peso QAT+MoE) mantiene el rendimiento durante la decodificación larga, con una mejora de la velocidad de generación de aproximadamente 2×.

Además, durante este período, Kimi no solo se ha centrado en modelos en el campo de la programación, sino que también ha considerado el ecosistema circundante y cómo hacer que el uso de la programación K2 sea más conveniente y asequible para todos. Lanzaron su propia herramienta CLI de programación de IA, Kimi CLI, que es fácil de instalar y utiliza el código básico Lazio Claude. También agregaron un paquete API llamado KFC, que cuesta 199 yuanes y proporciona 7168 llamadas por semana, lo cual es más que suficiente.

Primero, veamos cómo usar de forma fácil y rápida el modelo K2-Thinking actualizado a través de la familia de software Kimi. Necesitamos adquirir una membresía del programa Kimi Apollo, lo cual se puede hacer directamente en el sitio web oficial. Además, si ya has dado propina a Kimi anteriormente, el dinero que le diste se acreditará en tu cuenta después de que actives el servicio por primera vez, lo cual es muy generoso. Aquí hay un problema de diseño. Si quieres obtener la clave API de Kimi For Coding, tienes que hacer clic en el texto resaltado en la imagen de abajo y copiarlo. Esperemos que esto se pueda corregir más adelante, quizás añadiéndolo a la configuración.

Luego podemos instalar Kimi CLI. Si no has instalado UV, primero debes instalarlo en la terminal. Luego puedes instalar Kimi CLI usando este código. uv tool install --python 3.13 kimi-cli Después de la instalación, abre el directorio de tu proyecto en la terminal y escribe "kimi" para iniciar la CLI de Kimi. Al iniciar la aplicación por primera vez, se le pedirá que elija un método de inicio de sesión. Seleccione la primera opción e introduzca la clave API que acaba de obtener de KFC. Una vez dentro, pulsa la tecla Tab para activar el pensamiento. En este punto, se utilizará el modelo K2-Thinking. El mismo procedimiento se aplica para activar el pensamiento en Claude Code.

Por supuesto, esto todavía se puede usar en Cluade Code. Si te resulta complicado configurar las variables de entorno, puedes usar mi proyecto "ai-claude-start". Al crearlo, completa la siguiente información.

A continuación viene la prueba del modelo. Primero propondré un requisito básico para una aplicación web de tareas pendientes, y luego iré añadiendo, modificando y solicitando continuamente características adicionales, y veré el resultado después de diez rondas de modificaciones. Como puedes ver, este es el proceso de ir añadiendo gradualmente funcionalidades desde la aplicación inicial y rudimentaria de tareas pendientes hasta convertirse finalmente en un producto casi completo. A medida que evolucionaban los requisitos, se volvieron cada vez más complejos, como la funcionalidad de arrastrar y soltar y una importante renovación para la adaptación a dispositivos móviles. Esto conllevó cambios en la interfaz de usuario debido a la incorporación de nuevas funciones, pero K2-Thinking gestionó todos estos aspectos de una sola vez. La tercera vez, un problema de interfaz de usuario causado por la adición de nuevas funciones se solucionó en la cuarta, lo cual es bastante genial.

También probé esto con otros modelos. Claude 4.5 funcionó, pero Codex no. Abajo se muestra el aspecto que tenía Codex CLI tras su séptima ronda de modificaciones. El panorama es desolador; el producto es prácticamente inutilizable y lo ha arruinado.

A continuación, se puso a prueba la habilidad de búsqueda de Kimi en la interfaz de línea de comandos: buscar el estilo de diseño de la página de inicio del producto Linear y luego escribir una página web que replicara el estilo de diseño de la página web de ese producto. De hecho, utilizó herramientas de búsqueda para encontrar algunos artículos sobre diseño lineal, y luego resumió las características de diseño del diseño lineal, ampliando las indicaciones y requisitos originales. La parte más difícil fue el botón magnético y el efecto de luz al pasar el ratón sobre la tarjeta, que también eran elementos de diseño clave del anterior Linear, y los resolvió todos. También intenté usar esta sugerencia en Claude Code para que funcionara Claude 4.5, pero Claude 4.5 todavía no lograba que funcionaran la animación del botón magnético y el efecto de degradado al pasar el ratón por encima.

La siguiente prueba examinará la lógica empresarial compleja. Pídele que cree una herramienta de diagramas de flujo que oculte muchos conflictos y problemas de lógica interactiva, como conflictos entre arrastrar y hacer clic, y conexiones vinculadas a componentes. Respecto a los problemas de conflicto que podrían surgir fácilmente al arrastrar y conectar líneas, este ingenioso individuo simplemente creó un botón para cambiar de modo, lo que solucionó el problema. Al conectar los cables, la función opera con normalidad y la ruta es lógica, sin rodeos. Al mismo tiempo, los nodos de juicio lógico añaden automáticamente etiquetas de "sí" y "no". Parece que, tras adquirir capacidad de razonamiento, puede manejar este tipo de lógica compleja con trampas de forma bastante eficiente.

El siguiente paso consistió en poner a prueba su capacidad para procesar API, recuperar datos y visualizarlos, lo que le llevó a crear un panel de control de blockchain con altos requisitos de visualización. Los resultados muestran que la ejecución fue bastante buena. Se utilizó la API correcta para recuperar los datos y se implementaron las anotaciones de visualización y la ordenación necesarias. También se ha añadido el gráfico de líneas detallado que aparece al hacer clic en los datos detallados, junto con animaciones de expansión/contracción y datos detallados al pasar el cursor.

Por último, aquí tenemos un fragmento de código que presenta algunos problemas. Veamos si podemos identificarlos y solucionarlos. Hice que otra IA escribiera una página web con una lista de cinco preguntas, generando una lista enorme de una sola vez, para solucionar el problema de latencia y mejorar la velocidad de búsqueda. Lo curioso es que no solo solucionó el problema, sino que también añadió un componente de monitorización del rendimiento, que permite ver los detalles de los datos corregidos en tiempo real al ejecutar y probar la página web, permitiendo ver el efecto a partir de los datos en lugar de a partir de la propia percepción.

Aunque The Dark Side of the Moon es uno de los seis pequeños dragones de China, su valor a nivel mundial es solo del 0,5% del de OpenAI y del 2% del de Anthropic. Esta pequeña empresa nacional ha obtenido dos puntuaciones de última generación (SOTA) en conjuntos de pruebas muy exigentes, ¡y no se trata de puntuaciones SOTA nacionales o de código abierto, sino de puntuaciones SOTA globales! Antes de que se publicara el artículo, vi un comentario en su tuit que reflejaba la opinión de muchos usuarios extranjeros. He visto contenido similar varias veces últimamente.

Hilo de 歸藏(guizang.ai) (@op7418)

Información del autor

Contenido del hilo