X (Twitter)

DeepSeek は、大規模な数学的推論モデル DeepSeek-Math-V2 をオープンソース化しました。ジェミニを抜いてIMO金メダルを獲得正しい答えを提供するだけでなく、その推論が合理的かどうかを検証することもできます。核となるイノベーションは、生成、検証、レビューを統合した自己検証システムの開発です。モデルの機能: 数学的な証明を自動的に生成します。各ステップが妥当かどうかを自己チェックします。推論エラーが修正された後、最終的な証明が出力されます。 DeepSeek-Math-V2 は、いくつかの難しい数学テストで優れたパフォーマンスを発揮します。数学の 5 つの主要分野 (代数、幾何学、数論、組合せ論、不等式) において: DeepSeekMath-V2はGPT-5-ThinkingとGemini 2.5 Proを完全に上回ります。競技パフォーマンス IMO 2025（国際数学オリンピック）：6問中5問を解いて金メダルレベル。 CMO 2024（中国数学オリンピック）：問題4問を解いて、部分得点1点、金メダルレベル。 Putnam 2024（アメリカ大学数学コンペティション）：118/120点、ほぼ満点。

能力特性高精度：正解率はGPT-5やGeminiシリーズを上回ります。厳密な推論: ロジックの各ステップは、ステップの省略や錯覚を避けるために自己チェックされます。強力な自己改善能力：複数回の検証を通じて証明の品質を継続的にxiaohu.ai/c/a066c4/deeps…出力には結論だけでなく、完全な推論プロセスも含まれます。詳しい紹介：https://t.co/97LnWmuHox

能力特性

高精度：正解率はGPT-5やGeminiシリーズを上回ります。
厳密な推論: ロジックの各ステップは、ステップの省略や錯覚を避けるために自己チェックされます。
強力な自己改善能力：複数回の検証を通じて証明の品質を継続的に改善する

GitHub:github.com/deepseek-ai/De…9 モデルのhuggingface.co/deepseek-ai/De…jUOqj09b

小互（@imxiaohu）のスレッド

作者情報

スレッド内容