2/n: 「我真是太蠢了」時刻(類似 DeepSeek R1 的「頓悟時刻」) DeepSeekMath-V2論文最重要的技術突破並非達到IMO金牌水準! ! !那究竟是什麼呢? 它賦予模型可靠驗證自身採樣產生結果的能力。這對邏輯線性模型(即使是推理型邏輯線性模型)來說一直非常困難。 引用: “當證明生成器無法一次性生成完全正確的證明時——這在IMO和CMO等競賽的難題中很常見——迭代驗證和改進可以在一定程度上提高結果。這包括使用外部驗證器分析證明,並提示生成器解決已發現的問題。” 然而,我們觀察到一個關鍵的限制:當被要求一次性生成並分析自己的證明時,生成器往往會聲稱其正確性,即使外部驗證者很容易發現缺陷。 換句話說,雖然產生器可以根據外部回饋改進證明,但它無法像專門的驗證者那樣嚴格地評估自己的工作。 這項觀察促使我們賦予證明生成器真正的驗證功能。 @gm8xx8 @teortaxesTex @rohanpaul_ai @ai_for_success
3/n:DeepSeekMath-V2 模型實際上受到了威脅,不得作弊。 你可以在提示範本裡看到。梁文峰是個嚴厲的家長! ! !
