Sina Weiboは最近、「VibeThinker-1.5B」と呼ばれる15億パラメータの「小型モデル」をオープンソース化しました。学習コストはわずか7,800ドルです。数学やコーディングといった複雑な推論タスクにおいて、大規模モデルの水準に匹敵、あるいはそれを凌駕する性能を発揮しています。 背景と動機: 小型モデルがなぜ「復活」できるのか? OpenAIのo1モデルは「大規模推論モデル」(LRM)の時代を切り開き、強化学習とLong Chain of Reasoning(LCOT)を駆使して、数学定理証明、臨床診断、プログラミング競技といった分野で人間に近い専門家レベルを達成しました。その後のDeepSeek R1(671B)やKimi K2(>1T)といったオープンソースプロジェクトは、「規模の法則」をさらに強化しました。パラメータが多いほど推論は強力になるという法則です。小規模なモデルは本質的に脆弱であり、非常に複雑な問題に対応できないと考えられています。 論文の著者らは、この見解に異議を唱えました。「小さなモデルから始めて巧妙なトレーニング戦略を採用することで、隠れた推論能力を引き出すことができるだろうか?」という問いです。答えは「イエス」です。Qwen2.5-Math-1.5BモデルをベースにしたVibeThinker-1.5Bは、トレーニング後の最適化によってベンチマークテストで大幅な改善を達成しました。AIME24数学テストでは6.7ポイントから80.3ポイントに、LiveCodeBench V6コーディングベンチマークでは0ポイントから51.1ポイントに飛躍しました。さらに注目すべきは、DeepSeekのパラメータ数が400倍以上であるにもかかわらず、VibeThinker-1.5Bはいくつかの数学的課題でDeepSeek R1をわずかに上回ったことです。これは、推論能力のボトルネックが「サイズ」ではなく、トレーニングパラダイムの革新性にあることを示しています。 コアイノベーション:スペクトルから信号への原理 本論文では、「スペクトルシグナル原理」(SSP)という枠組みを提案しています。これは、教師あり微調整(SFT)と強化学習(RL)の連携を再定義するものです。従来の手法では、SFTは「最適な解を正確に見つける」段階であり、RLはそれをさらに洗練させる段階と捉えられています。しかし、著者らは、この手法ではモデルが単一の経路上の「局所最適解」に陥り、その後の探索空間が制限される可能性があると主張しています。SSPは、これら2つの段階を互いに補完的な役割に分離します。 • スペクトラルステージ(SFT):多様性の探求 SFTは、単一世代(Pass@1)における精度を追求するのではなく、複数回のサンプリング(Pass@K)における成功率を最適化し、「豊富なスペクトル」、つまり複数の潜在的に正しい解を生成します。これにより、モデルが狭いパターンに固執することが回避され、問題解決の堅牢性と創造性が向上します。 実装では、「2 段階の多様性探索蒸留」アプローチを採用しています。 1. ドメイン認識型多様性検出: 数学ドメインはサブドメイン (代数や幾何学など) に分割され、強力な LLM を使用してサブドメインごとにプローブ セットが生成され、Pass@K で最適な「エキスパート モデル」が選択されます。 2. エキスパートモデルの融合:エキスパートモデルを加重平均(均一な重み)によって統合し、統一されたSFTモデルを形成します。これにより精度と多様性のバランスが取れ、強化学習への道が開かれます。 • シグナリングフェーズ(RL):正しいパスを増幅する 強化学習(RL)は、SFTの「スペクトル」から最適な推論軌道を選択し、強化します。著者らは、グループ相対ポリシー最適化(GRPO)の拡張である「最大エントロピー誘導ポリシー最適化(MGPO)」を導入しています。GRPOは、複数の応答セットをサンプリングすることで相対的な優位性を計算し、外部価値関数の複雑さを回避します。MGPOはさらに最大エントロピーの原理を取り入れており、不確実性が高い(精度が50%に近い、つまり2値分布の最大エントロピー点に近い)トレーニングサンプルを優先し、エントロピーバイアス正則化を用いて優位性関数に重み付けを行います。これにより、モデルは「高価値」な問題に効率的に焦点を合わせることができ、既に習得済みの単純なタスクでの無駄な計算を回避できます。 RL は 2 つのサブステージで構成されます。最初は数学的推論 (コンテキストは 16K から 32K に拡張されます)、次にエンコード生成 (報酬関数はバイナリの正確性) です。 さらに、この論文ではデータのサニタイズが重視されています。10グラムのセマンティックマッチングを用いてトレーニングセットとテストセットの重複を排除し、結果の信頼性を確保しています。トレーニングデータは、数学とコーディングの分野をカバーするオープンソースデータセットと合成データを組み合わせています。 実験と結果: 小さなモデルの背後にある「大きな論理」 VibeThinker-1.5Bは、数学(MATH-500、AIME24/25、HMMT25)、コーディング(LiveCodeBench V5/V6)、知識(GPQA-Diamond)を含む複数のベンチマークで評価されました。評価はvLLMバックエンドを使用し、マルチサンプリングPass@1、温度0.6(数学は1.0)で実施されました。 • より小型のモデルと比較して: VibeThinker はサブ 3B カテゴリで優れており、AIME25 スコア 74.4 (Qwen3-1.7B は 36.8)、HMMT25 スコア 50.4 (SmolLM-3B は 26.0)、コーディング V6 スコア 51.1 (ベース モデル 0.0) を達成しています。 • 大規模推論モデルとの比較:数学的には、DeepSeek R1(AIME24:80.3 vs. 79.8、AIME25:74.4 vs. 70.0、HMMT25:50.4 vs. 41.7)をわずかに上回り、MiniMax-M1-456Bと同等です。コーディング性能はMagistral Medium(55.9 vs. 59.4)よりわずかに劣ります。 • 上位の非推論モデルと比較:数学的にはGPT-4.1(AIME24:80.3 vs. 46.5)およびKimi K2(49.5)よりも優れており、コーディングではClaude Opus 4(51.1 vs. 47.4)よりも優れています。しかし、GPQA知識テスト(46.7 vs. 70-82)では依然として遅れをとっており、この小規模モデルは広域知識においてさらなる最適化が必要であることを示唆しています。 これらの結果は SSP の有効性を裏付けています。多様性主導型のアプローチにより、推論集約型のタスクにおいて小規模モデルで「少ないリソースで優れた結果を達成」できるようになります。 議論と影響:AI環境の再構築 VibeThinkerの成功は、パラメータスタッキングではなくアルゴリズム設計に起因しています。これにより、推論コストが大規模モデルの30分の1から60分の1に削減され、エッジデプロイメントが容易になります(推論コストは20分の1から70分の1)。これは規模の法則の限界を露呈しています。特に数学/コーディング領域において、小規模モデルの潜在能力は過小評価されています。しかしながら、知識ベンチマークにおけるギャップは、一般化された知識の注入を強化するための今後の取り組みの必要性を示唆しています。 オープンソースモデルと技術レポート:
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
