X (Twitter)

Kimi-K2-Thinking: @Kimi_Moonshot lanzó recientemente un modelo de código abierto para razonamiento profundo y funcionalidad de agentes inteligentes. No solo se trata de un motor de inferencia de alta eficiencia, sino que también incorpora capacidades de agentes inteligentes, lo que permite la invocación dinámica de herramientas en tareas complejas para lograr un procesamiento integral, desde simples preguntas y respuestas hasta flujos de trabajo autónomos de cientos de pasos. Este modelo marca la evolución de los grandes modelos de lenguaje hacia una mayor autonomía y practicidad, destacando especialmente en campos como la programación, la investigación y la escritura. Diseño central: Mecanismo eficiente de "pensamiento" bajo la arquitectura del Ministerio de Educación. Kimi-K2-Thinking adopta la arquitectura MoE con una escala de parámetros total de 1T, pero solo 32B de parámetros de activación. Esto se traduce en una mayor eficiencia en el uso de recursos computacionales, ya que solo se activan unos pocos expertos por token, evitando la sobrecarga redundante de un modelo con todos los parámetros. Los parámetros específicos incluyen: 61 capas (incluida 1 capa densa), una dimensión oculta de 7168 para la capa de atención y 2048 por experto en MoE, 384 expertos (8 seleccionados por token, incluido 1 experto compartido), 64 cabezas de atención, función de activación SwiGLU, mecanismo de atención MLA, un vocabulario de 160 000 palabras y soporte para una longitud de contexto de 256 000. Este diseño permite que el modelo mantenga una baja latencia al procesar secuencias largas, a la vez que genera rutas de inferencia progresivas mediante el mecanismo CoT. A diferencia de la salida lineal de los modelos tradicionales, alterna entre el razonamiento y la invocación de herramientas, formando un bucle cerrado: el modelo primero «reflexiona» sobre la descomposición del problema, luego recurre a herramientas externas para obtener datos y, finalmente, integra la salida. Este proceso, similar al de un agente inteligente, resulta especialmente adecuado para tareas que requieren verificación iterativa, como la resolución matemática o la depuración de código. Innovaciones clave: Los aspectos más destacados del entrenamiento con cuantización y la estabilidad a largo plazo del modelo radican en dos importantes optimizaciones de ingeniería: Primero, la cuantización nativa INT4, que comprime los pesos a una precisión de enteros de 4 bits mediante entrenamiento con reconocimiento de cuantización (QAT), logrando un aumento de aproximadamente el doble en la velocidad de inferencia y una reducción del uso de memoria de la GPU superior al 50 %. Esta cuantización no se aplica después del procesamiento, sino que se integra desde el inicio del entrenamiento, lo que garantiza una mínima pérdida de precisión (comparable a FP16 en la mayoría de las pruebas de rendimiento). Segundo, la estabilidad del agente a largo plazo. Los modelos tradicionales tienden a perder el rumbo tras 30-50 llamadas a herramientas, pero Kimi-K2-Thinking puede funcionar de forma estable durante 200-300 pasos, manteniendo un comportamiento orientado a objetivos. Esto se debe a una estrategia de entrenamiento específica, que incluye el ajuste fino del aprendizaje por refuerzo (RLHF) y datos simulados para el uso de herramientas, lo que ayuda al modelo a mantener la coherencia a lo largo de múltiples rondas de interacción. Estas innovaciones permiten que los modelos pasen de la "respuesta pasiva" a la "exploración activa", lo que los hace adecuados para escenarios del mundo real como la búsqueda web, la generación de código o el análisis multimodal. Rendimiento: Liderazgo en pruebas comparativas. Kimi-K2-Thinking demostró un sólido rendimiento en múltiples evaluaciones, superando especialmente a sus competidores en tareas complejas que requieren el uso de herramientas. Por ejemplo, en la prueba de inferencia Humanity's Last Exam (HLE), obtuvo una puntuación del 23,9 % sin herramientas, del 44,9 % con herramientas y del 51,0 % en escenarios con herramientas avanzadas. En la tarea matemática AIME25, alcanzó el 94,5 % sin herramientas, el 99,1 % con herramientas y el 100,0 % con herramientas avanzadas. Su puntuación en la prueba de conocimientos generales MMLU-Pro llegó al 84,6 %. En la prueba de búsqueda de agentes BrowseComp, obtuvo el 60,2 %; en la tarea de programación SWE-bench Verified, el 71,3 %; en LiveCodeBenchV6, el 83,1 %; y en la prueba de agentes Seal-0, el 56,3 %. Cabe destacar su puntuación del 62,3 % en tareas chinas como BrowseComp-ZH. Estos logros demuestran la fiabilidad del modelo en entornos complejos de múltiples pasos. Las aplicaciones prácticas y el modelo de soporte del ecosistema se alojan como software de código abierto en Hugging Face, y son compatibles con las API de OpenAI/Anthropic para una fácil integración. En la práctica, las llamadas de chat o de utilidad se pueden implementar con código Python sencillo. Por ejemplo, en un chat básico, se introduce una pregunta y el modelo genera la respuesta junto con el razonamiento (reasoning_content). Para las llamadas de utilidad, se define una función (como una consulta meteorológica) y el modelo decide automáticamente cuándo ejecutarla, iterando varias veces para obtener los resultados. La licencia es MIT modificada, lo que permite su uso comercial, pero está sujeta a los términos del código abierto. Moonshot AI también proporciona guías de implementación (para marcos de trabajo como vLLM/SGLang) y documentación sobre el uso de las herramientas, lo que permite a los desarrolladores comenzar rápidamente. En general, este modelo reduce las barreras de entrada para el desarrollo de agentes inteligentes, impulsando la IA desde el laboratorio al entorno de producción.

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo