所以是 DeepSeek-Math-V2。 它的副標題可以是:“如何訓練更好的驗證器?”,而其大部分內容其實就是……更好的資料處理和合成流程(即使所有模型都是用強化學習訓練的)。 DeepSeek 進一步偏離了 R0 最初所承諾的自發性自我驗證,原因很簡單,這種方法不具備可擴展性:曲折的推理最終得出正確答案仍然非常脆弱,容易失敗。 這個專案始於人工標註,但標註者均為高級專家,這本身就代表著整個行業的變革,即我們力求規模化/自動化我們所能找到的最佳數據品質流程。此外,該流程還利用了我們在構建 SYNTH 數學管道時發現的一個現象:人類(以及經過適當引導的模型)無需參考最終答案即可識別出推理過程存在缺陷的情況。 該論文還提到了一種可能在合成管線中廣泛應用的技術:“元驗證器”,其本質上是對評估過程本身進行評估。因為即使是驗證器也可能被獎勵作弊:“在訓練過程中評估有缺陷的證明(其中 si < 1)時,驗證器可以通過預測正確分數來獲得全部獎勵,同時卻臆想出一些根本不存在的問題。” 首先在合成草稿中進行人工標註,然後這些標註反過來用於建立評估器,評估器會遞歸地產生更好的證明和越來越好的求解路徑。總的來說,這個過程形成了一個正回饋循環:“證明驗證器和生成器形成了一個協同循環:驗證器改進生成器,而隨著生成器的改進,它會產生新的證明,從而挑戰驗證器當前的水平。” 所有驗證器/元驗證器/最終模型的訓練都採用強化學習(RL)完成(對於非常大的模型來說,這很合理,因為SFT/midtrain可能會造成相當大的破壞)。然而,即便如此,RLVR日益增長的複雜性(無法局限於簡單的形式化「驗證」)仍然需要開發整合化、日益自給自足的合成流程。 數學證明者再次將LLM研究帶到了真正的前沿,並帶來了創意和優雅的解決方案,這些解決方案很可能在未來幾個月內滋養整個領域。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。