X (Twitter)

MiroThinker v1.0 は他のテストセットでも優れたパフォーマンスを発揮しました。 ① HLE最終人間テスト：精度37.7%、GPT-5-high w/ Python + 検索ツールの精度35.2%を上回りました。 ② BrowseComp-ZH：DeepSeek-v3.2を7.7パーセントポイント上回る。これは基本的に、GPT、Grok、Claude などのトップモデルと同等であり、第 1 層に位置付けられます。チームの「ディープインタラクションスケーリング」というコンセプトは非常に興味深いです。より多くのデータ + より大きなパラメータ = より強力なモデルという従来のスケーリング法則は、現在その限界に近づいています。ディープインタラクションスケーリング法: エージェントと環境のインタラクションの深さと幅を拡大し、推論と意思決定の能力を持続的に向上させます。簡単に言えば、エージェントが環境内で継続的に「試行錯誤」と「反映」を行うことを可能にします。反復を繰り返すほど、モデルはより賢くなります。この戦略は、従来の LLM の「コンテキストの長さ」と「有効なインタラクションラウンドの数」に関する制限を克服できます。 MiroThinker ベースモデルは完全にオープンソースアーキテクチャを再利用し、すべてのモデルの重み、ツールチェーン、およびインタラクションフレームワークを利用できるようになります。このオープンソースプロジェクトは、世界中の開発者や研究者にとって朗報です。オンラインデモをお試しいただけます:

向阳乔木（@vista8）のスレッド

作者情報

スレッド内容