MiroThinker v1.0 は他のテスト セットでも優れたパフォーマンスを発揮しました。 ① HLE最終人間テスト:精度37.7%、GPT-5-high w/ Python + 検索ツールの精度35.2%を上回りました。 ② BrowseComp-ZH:DeepSeek-v3.2を7.7パーセントポイント上回る。 これは基本的に、GPT、Grok、Claude などのトップ モデルと同等であり、第 1 層に位置付けられます。 チームの「ディープインタラクションスケーリング」というコンセプトは非常に興味深いです。 より多くのデータ + より大きなパラメータ = より強力なモデルという従来のスケーリング法則は、現在その限界に近づいています。 ディープインタラクションスケーリング法: エージェントと環境のインタラクションの深さと幅を拡大し、推論と意思決定の能力を持続的に向上させます。 簡単に言えば、エージェントが環境内で継続的に「試行錯誤」と「反映」を行うことを可能にします。反復を繰り返すほど、モデルはより賢くなります。 この戦略は、従来の LLM の「コンテキストの長さ」と「有効なインタラクション ラウンドの数」に関する制限を克服できます。 MiroThinker ベース モデルは完全にオープン ソース アーキテクチャを再利用し、すべてのモデルの重み、ツールチェーン、およびインタラクション フレームワークを利用できるようになります。 このオープンソース プロジェクトは、世界中の開発者や研究者にとって朗報です。 オンラインデモをお試しいただけます:
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
