X (Twitter)

O MiroThinker v1.0 também teve um desempenho impressionante em outros conjuntos de testes: ① Teste final HLE com humanos: 37,7% de precisão, superando os 35,2% de precisão do GPT-5-high com Python + ferramentas de busca. ② BrowseComp-ZH: Supera o DeepSeek-v3.2 em 7,7 pontos percentuais. Basicamente, está no mesmo nível de modelos de ponta como GPT, Grok e Claude, o que o coloca no primeiro escalão. O conceito de "escalonamento de interação profunda" da equipe é muito interessante. A tradicional Lei de Escala, que afirma que mais dados + parâmetros maiores = um modelo mais robusto, está agora se aproximando de seu limite. Lei de Escala de Interação Profunda: Expande a profundidade e a amplitude da interação do agente com o ambiente, melhorando de forma sustentável as capacidades de raciocínio e tomada de decisão. Em termos simples, isso permite que o Aget realize continuamente "tentativas e erros" e "reflexões" sobre o ambiente. Quanto mais iterações, mais inteligente o modelo se torna. Essa estratégia pode superar as limitações do LLM tradicional em relação à "extensão do contexto" e ao "número efetivo de rodadas de interação". O modelo base do MiroThinker reutiliza uma arquitetura totalmente de código aberto, disponibilizando todos os pesos do modelo, cadeias de ferramentas e estruturas de interação. Este projeto de código aberto é uma ótima notícia para desenvolvedores e pesquisadores do mundo todo. Você pode experimentar a demonstração online:

Thread de 向阳乔木 (@vista8)

Informações do autor

Conteúdo da thread