MiroThinker v1.0在其他測試集的表現也很亮眼: ① HLE 人類最終測試:37.7% 準確率,超越GPT-5-high w/ Python + search tools 的35.2% ② BrowseComp-ZH:超越DeepSeek-v3.2 達7.7 個百分點 基本上與GPT、Grok、Claude 等頂尖模型差不多,進入第一梯隊了。 團隊提出的「深度互動Scaling」觀點,很有意思。 傳統Scaling Law:更多資料+ 更大參數= 更強模型,現在已經接近瓶頸。 深度互動Scaling Law:擴大Agent與環境互動的深度與廣度,永續提升推理與決策能力。 簡單說,就是讓Agen t在環境中深度持續“試錯”和“反思”,循環次數越多,模型越聰明。 這個策略,能突破傳統LLM 對「上下文長度」和「有效交互輪數」的限制。 MiroThinker 基座模型重複使用徹底的開源架構,開放了所有模型權重、工具鍊和互動框架。 這個開源項目,對全球開發者和科研人員,都是好消息。 可以試試線上Demo:
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
