Luo Fuli, quien se unió a Xiaomi después de dejar Deepseek, también registró una cuenta de Twitter, sugiriendo que está liderando el desarrollo del nuevo modelo. A continuación se presenta una breve introducción a los detalles técnicos del modelo MiMo-V2-Flash lanzado por Xiaomi anoche. Arquitectura: Se adopta SWA híbrido (Atención Ponderada Híbrida). Supera a otros esquemas de atención lineal en la inferencia de contexto largo, y la caché KV fija es más adecuada para la infraestructura actual. El tamaño óptimo de ventana es 128; 512 reducirá el rendimiento; los valores de sumidero deben conservarse y no pueden omitirse. MTP (Predicción Multi-Token): Es crucial para un RL eficiente. Se pueden lograr longitudes de aceptación altas con ajustes mínimos más allá de la primera capa. Un MTP de 3 capas logra una longitud de aceptación >3 y una aceleración de aproximadamente 2,5 veces en las tareas de codificación, lo que resuelve los problemas de inactividad de la GPU causados por muestras de cola larga en el RL de lotes pequeños según la política. Si bien no se incluye en este bucle de RL por limitaciones de tiempo, es una excelente opción; el MTP de 3 capas es de código abierto, lo que facilita el desarrollo comunitario. Post-Capacitación MOPD: Mediante la Destilación de Políticas de Thinking Machine, se fusionan múltiples modelos de RL, lo que resulta en mejoras significativas de eficiencia. En comparación con el proceso estándar de SFT+RL, el costo computacional se reduce a menos de 1/50, manteniendo el mismo rendimiento que el modelo docente, lo que revela una trayectoria evolutiva de "estudiantes que se auto-refuerzan para convertirse en docentes más eficaces". Se centra en la ingeniería práctica y la facilidad de uso en la línea de producción. La combinación híbrida de SWA y caché KV fija mejora el contexto largo y la eficiencia de la implementación; MTP ofrece ventajas paralelas de entrenamiento/inferencia; MOPD replica/integra las capacidades de RL con un consumo de cómputo extremadamente bajo.
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
