つまりDeepSeek-Math-V2です。 サブタイトルは「より優れた検証者をトレーニングするには?」で、大部分は単純に…より優れたデータ作業と合成パイプラインです(すべてのモデルが RL でトレーニングされている場合でも)。 DeepSeek は、R0 が当初約束していた自発的な自己検証からさらに遠ざかっています。その理由は、このアプローチがスケーラブルではないからです。曲がりくねった推論を経て最終的に正しい答えを得る方法は、依然として非常に脆弱で、失敗する傾向があります。 このプロジェクトは、人間によるアノテーションから始まります。ただし、これは高度な専門家によるアノテーションであり、業界全体の変化を反映しています。私たちは、可能な限り最高のデータ品質プロセスをスケールアップ/自動化しようと試みています。このプロセスでは、SYNTHの数学パイプラインを構築する際に気づいた点も活用しています。人間(および適切に誘導されたモデル)は、最終的な答えを参照することなく、複雑な推論の事例を特定できるのです。 この論文では、合成パイプラインで広く利用される可能性が高い技術「メタ検証器」についても言及しています。これは基本的に評価プロセス自体を評価するものです。検証器でさえ報酬をハッキングされる可能性があるためです。「訓練中に欠陥のある証明(𝑠𝑖 < 1)を評価する際、検証器は存在しない問題を幻覚させながら正しいスコアを予測することで、完全な報酬を受け取ることができます。」 人間による注釈は、まず合成草稿で行われ、次に評価器の構築に役立ち、評価器は再帰的により良い証明と、より優れた解決経路を生成します。全体として、このプロセスは正のフィードバックループを形成します。「証明検証器と生成器は相乗効果を生み出すサイクルを生み出します。検証器は生成器を改善し、生成器が改善されるにつれて、検証器の現在の能力に挑戦する新しい証明を生成します。」 検証器/メタ検証器/最終モデルの学習はすべて強化学習(RL)で行われます(SFT/中間学習は非常に破壊的になる可能性があるため、非常に大規模なモデルではRL学習が理にかなっています)。しかし、RLVRの複雑さは増大しており、単純な形式的な「検証」に限定することはできません。そのため、統合され、より自立した合成パイプラインの開発が求められています。 もう一度、数学の証明者は LLM 研究を実際の最先端にまで持ち込み、今後数か月でその分野全体に潤いを与える可能性のある創造的でエレガントなソリューションを導きました。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。