Anoche, el equipo de entrenamiento de Kimi K2 realizó una sesión de preguntas y respuestas en el canal Reddit LocalLLaMA. He consultado las reseñas de K2-Thinking de usuarios extranjeros y son bastante diferentes de las reseñas de usuarios nacionales en la sección de comentarios. Los usuarios internacionales son relativamente menos sensibles al precio. Por supuesto, también mencionaron que existen algunos problemas con el cobro por número de llamadas en lugar de por token. En general, esto sigue estando relacionado con su enfoque en la tecnología y la calidad, así como con las características del canal LocalLLaMA. También respondieron a muchas preguntas en la sesión de preguntas y respuestas de anoche, y he recopilado algunas de las más informativas: ---------------------------- ¿Se utilizará KDA en el próximo modelo insignia, Kimi? ¿Cuáles son sus ventajas? Los híbridos KDA con MLA NoPE superan a los tradicionales MLA + RoPE. Es más rápido, más económico y más eficiente tanto en la fase de preentrenamiento como en la de aprendizaje por refuerzo. Permite una capacitación previa y una implementación más rápidas, y puede dar servicio a más usuarios. Podría utilizarse en el entrenamiento K3. ¿Tendrá K2 una versión en lenguaje visual (VL)? Sí, está en proceso. Es evidente que K2 no resulta tan atractivo para el usuario (no es tan halagador) como otros modelos. ¿Es esto intencional? ¿Es resultado del proceso posterior al entrenamiento? La personalidad inconformista de K2 está diseñada mediante una cuidadosa selección de datos. Tanto el preentrenamiento como el postentrenamiento contribuyen a este estilo. El preentrenamiento codifica la información previa relevante, mientras que el postentrenamiento añade su propio matiz. El método de facturación actual de Kimi for Coding se basa en el número de solicitudes a la API, lo cual resulta extremadamente opaco. Una sola solicitud puede generar múltiples solicitudes. ¿Sería posible modificarlo para que se base en un token o en una solicitud? Actualmente, facturamos según el número de solicitudes porque es visible para los usuarios y se ajusta mejor a su estructura de costos. Sin embargo, comprendemos la confusión que esto genera entre los usuarios y consideraremos mejoras. ¿Crees que fp4 supone una mejora significativa respecto a int4? ¿O int4 ya es una codificación suficientemente buena? La elección de int4 se debe a la necesidad de una mayor compatibilidad con las GPU que no son Blackwell, al tiempo que se aprovecha el kernel de inferencia int4 existente de Marlin. El modelo K2 Thinking es más potente que GPT-5 Thinking, pero su velocidad de procesamiento es mucho menor. ¿Deberíamos modificarlo deliberadamente para que "procese durante más tiempo"? Si bien se reconoce que K2-Thinking es más detallado y requiere más tiempo en la fase de inferencia, se están realizando optimizaciones. ¿Centrarse en proxies de texto plano es un sacrificio a corto plazo para alcanzar el estado del arte (SOTA), o una apuesta a largo plazo? Conseguir los datos y el entrenamiento adecuados para el modelo de lenguaje visual (VL) lleva tiempo, por lo que optamos por lanzar primero el modelo de texto. ¿Es real la tarifa de formación de 4,6 millones de dólares del programa K2 Thinking? Estas cifras no son oficiales. Es difícil cuantificar los costes de formación porque una gran parte de ellos están relacionados con la investigación y la experimentación. ¿Cuál fue el mayor desafío al que te enfrentaste al crear K2 Thinking? ¡Gracias! Uno de los retos consiste en dar soporte al patrón intercalado de "pensar-herramienta-pensar-herramienta". Se trata de un comportamiento relativamente nuevo en los LLM y requiere mucho trabajo para que funcione correctamente. Tras varios meses de evaluación, K2 Thinking ha logrado identificar problemas que Sonnet 4.5 y Opus 4.1 pasaron por alto. Francamente, parece que K2 Thinking está a un paso de alcanzar el mismo nivel de rendimiento. ¿Se debe todo esto a su nueva arquitectura? ¿O también ha mejorado la calidad de sus datos de entrenamiento? Creo que disponer de métodos de evaluación y datos adecuados es fundamental para el rendimiento. La arquitectura y los optimizadores mejoran la eficiencia del muestreo. ¿Qué tipo de hardware utilizas para tu pila de entrenamiento? Me gustaría saber cómo se compara tu infraestructura con las pilas utilizadas por las grandes empresas estadounidenses. Utilizamos tarjetas gráficas H800 con Infiniband; no eran tan buenas como las tarjetas gráficas de gama alta de EE. UU., y su número no era tan abundante, pero aprovechamos al máximo cada una de ellas.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
