MiroThinker v1.0 también tuvo un rendimiento impresionante en otros conjuntos de pruebas: ① Prueba humana final de HLE: 37,7% de precisión, superando el 35,2% de precisión de GPT-5-high con Python + herramientas de búsqueda. ② BrowseComp-ZH: Supera a DeepSeek-v3.2 en 7,7 puntos porcentuales. Básicamente está a la par con modelos de gama alta como GPT, Grok y Claude, lo que lo sitúa en el primer nivel. El concepto de "escalado de interacción profunda" del equipo es muy interesante. La ley de escala tradicional, que establece que más datos + parámetros más grandes = un modelo más robusto, se está acercando a su límite. Ley de escala de interacción profunda: Amplía la profundidad y el alcance de la interacción del agente con el entorno, mejorando de forma sostenible sus capacidades de razonamiento y toma de decisiones. En pocas palabras, permite que el Aget "pruebe y falle" continuamente y "reflexione" sobre el entorno. Cuantas más iteraciones, más inteligente se vuelve el modelo. Esta estrategia puede superar las limitaciones del LLM tradicional en cuanto a "longitud del contexto" y "número efectivo de rondas de interacción". El modelo base de MiroThinker reutiliza una arquitectura totalmente de código abierto, lo que pone a disposición todos los pesos del modelo, las cadenas de herramientas y los marcos de interacción. Este proyecto de código abierto es una buena noticia para desarrolladores e investigadores de todo el mundo. Puedes probar la demostración en línea:
Cargando el detalle del hilo
Obteniendo los tweets originales de X para ofrecer una lectura limpia.
Esto suele tardar solo unos segundos.
