幾乎所有大模型都提供了「深度研究」功能,太有用了。 OpenAI 設計了一套資料集BrowseComp,專門測Deep Research能力,難度很變態。 讓真人做,兩小時搞不定的放棄率高達70.8%。 共1266題,OpenAI Deep Research正確率也只有51.5%。 MiroThinker v1.0,一個開源Agent基座模型,這套題準確率竟然達到47.1% 。 如果你想開發或學習「深度研究」類Agent 產品。 強烈建議關注,已分別在Huggingface和Github開源,完全免費! 模型Huggingface: https://t.co/f8LVh2Zkmz 模型Github含論文:https://t.co/KTPC2PnxDO Agent:
MiroThinker v1.0在其他測試集的表現也很亮眼: ① HLE 人類最終測試:37.7% 準確率,超越GPT-5-high w/ Python + search tools 的35.2% ② BrowseComp-ZH:超越DeepSeek-v3.2 達7.7 個百分點 基本上與GPT、Grok、Claude 等頂尖模型差不多,進入第一梯隊了。 團隊提出的「深度互動Scaling」觀點,很有意思。 傳統Scaling Law:更多資料+ 更大參數= 更強模型,現在已經接近瓶頸。 深度互動Scaling Law:擴大Agent與環境互動的深度與廣度,永續提升推理與決策能力。 簡單說,就是讓Agen t在環境中深度持續“試錯”和“反思”,循環次數越多,模型越聰明。 這個策略,能突破傳統LLM 對「上下文長度」和「有效交互輪數」的限制。 MiroThinker 基座模型重複使用徹底的開源架構,開放了所有模型權重、工具鍊和互動框架。 這個開源項目,對全球開發者和科研人員,都是好消息。 可以試試線上Demo:

