ほぼすべての大規模モデルには、非常に便利な「詳細調査」機能が備わっています。 OpenAI は、ディープ リサーチ機能をテストするために特別に BrowseComp と呼ばれるデータセットを設計しましたが、これは非常に困難です。 実際に人が2時間以内に終わらせることができない場合、放棄率は70.8%にもなります。 質問は合計 1266 問あり、OpenAI Deep Research は 51.5% の精度しか達成しませんでした。 オープンソースのエージェントベース モデルである MiroThinker v1.0 は、このテストで 47.1% の精度を達成しました。 「徹底的な調査」タイプのエージェント製品を開発または学習したい場合。 強くお勧めします!Huggingface と GitHub でオープンソースとして公開されており、完全に無料です! モデル:Huggingface: https://t.co/f8LVh2Zkmz モデルと論文はGitHubで公開されています: https://t.co/KTPC2PnxDO エージェント:
MiroThinker v1.0 は他のテスト セットでも優れたパフォーマンスを発揮しました。 ① HLE最終人間テスト:精度37.7%、GPT-5-high w/ Python + 検索ツールの精度35.2%を上回りました。 ② BrowseComp-ZH:DeepSeek-v3.2を7.7パーセントポイント上回る。 これは基本的に、GPT、Grok、Claude などのトップ モデルと同等であり、第 1 層に位置付けられます。 チームの「ディープインタラクションスケーリング」というコンセプトは非常に興味深いです。 より多くのデータ + より大きなパラメータ = より強力なモデルという従来のスケーリング法則は、現在その限界に近づいています。 ディープインタラクションスケーリング法: エージェントと環境のインタラクションの深さと幅を拡大し、推論と意思決定の能力を持続的に向上させます。 簡単に言えば、エージェントが環境内で継続的に「試行錯誤」と「反映」を行うことを可能にします。反復を繰り返すほど、モデルはより賢くなります。 この戦略は、従来の LLM の「コンテキストの長さ」と「有効なインタラクション ラウンドの数」に関する制限を克服できます。 MiroThinker ベース モデルは完全にオープン ソース アーキテクチャを再利用し、すべてのモデルの重み、ツールチェーン、およびインタラクション フレームワークを利用できるようになります。 このオープンソース プロジェクトは、世界中の開発者や研究者にとって朗報です。 オンラインデモをお試しいただけます:

