X (Twitter)

Casi todos los modelos grandes ofrecen una función de "estudio profundo", que resulta extremadamente útil. OpenAI diseñó un conjunto de datos llamado BrowseComp específicamente para probar las capacidades de investigación profunda, y es increíblemente difícil. Si una persona real no puede terminarlo en dos horas, la tasa de abandono llega al 70,8%. Había un total de 1266 preguntas, y OpenAI Deep Research solo logró una tasa de precisión del 51,5%. MiroThinker v1.0, un modelo basado en agentes de código abierto, alcanzó una tasa de precisión del 47,1% en esta prueba. Si desea desarrollar o aprender sobre productos de agentes de tipo "investigación en profundidad". ¡Muy recomendable! Es de código abierto en Hugging Face y GitHub, ¡y completamente gratis! Modelo: Huggingface: https://t.co/f8LVh2Zkmz El modelo y el artículo están disponibles en GitHub: https://t.co/KTPC2PnxDO Agente:

MiroThinker v1.0 también tuvo un rendimiento impresionante en otros conjuntos de pruebas: ① Prueba humana final de HLE: 37,7% de precisión, superando el 35,2% de precisión de GPT-5-high con Python + herramientas de búsqueda. ② BrowseComp-ZH: Supera a DeepSeek-v3.2 en 7,7 puntos porcentuales. Básicamente está a la par con modelos de gama alta como GPT, Grok y Claude, lo que lo sitúa en el primer nivel. El concepto de "escalado de interacción profunda" del equipo es muy interesante. La ley de escala tradicional, que establece que más datos + parámetros más grandes = un modelo más robusto, se está acercando a su límite. Ley de escala de interacción profunda: Amplía la profundidad y el alcance de la interacción del agente con el entorno, mejorando de forma sostenible sus capacidades de razonamiento y toma de decisiones. En pocas palabras, permite que el Aget "pruebe y falle" continuamente y "reflexione" sobre el entorno. Cuantas más iteraciones, más inteligente se vuelve el modelo. Esta estrategia puede superar las limitaciones del LLM tradicional en cuanto a "longitud del contexto" y "número efectivo de rondas de interacción". El modelo base de MiroThinker reutiliza una arquitectura totalmente de código abierto, lo que pone a disposición todos los pesos del modelo, las cadenas de herramientas y los marcos de interacción. Este proyecto de código abierto es una buena noticia para desarrolladores e investigadores de todo el mundo. Puedes probar la demostración en línea:

Hilo de 向阳乔木 (@vista8)

Información del autor

Contenido del hilo