2/n: 「私はなんてバカなんだ」という瞬間(DeepSeek R1 の「なるほど!」という瞬間に匹敵) DeepSeekMath-V2 論文における最も重要な技術的進歩は、IMO ゴールド レベルのパフォーマンスではありません。では、それは何でしょうか? モデルに、自身のサンプル生成を確実に検証する能力を与えることです。これは、LLM(推論型のものも含む)にとって非常に困難でした。 引用: 証明生成器が一発で完全に正しい証明を生成できない場合(IMOやCMOのようなコンペティションの難しい問題ではよくあることですが)、反復的な検証と改良によって結果が(ある程度)改善される可能性があります。これには、外部検証器による証明の分析と、特定された問題に対処するよう生成器に促すことが含まれます。 しかし、私たちは重大な制限に気づきました。一度に独自の証明を生成して分析するように要求された場合、外部の検証者が簡単に欠陥を特定できる場合でも、ジェネレータは正しさを主張する傾向があります。 言い換えれば、ジェネレーターは外部からのフィードバックに基づいて証明を改良できますが、専用の検証者と同じ厳密さで自身の作業を評価することはできません。 この観察が、証明ジェネレータに真の検証機能を与える動機となりました。」 @gm8xx8 @teortaxesTex @rohanpaul_ai @ai_for_success
3/n: DeepSeekMath-V2 モデルは文字通り不正行為をしないように脅されました。 プロンプトテンプレートで確認できます。梁翁峰は厳しい親です!!!
