X (Twitter)

所以是 DeepSeek-Math-V2。它的副標題可以是：“如何訓練更好的驗證器？”，而其大部分內容其實就是……更好的資料處理和合成流程（即使所有模型都是用強化學習訓練的）。 DeepSeek 進一步偏離了 R0 最初所承諾的自發性自我驗證，原因很簡單，這種方法不具備可擴展性：曲折的推理最終得出正確答案仍然非常脆弱，容易失敗。這個專案始於人工標註，但標註者均為高級專家，這本身就代表著整個行業的變革，即我們力求規模化/自動化我們所能找到的最佳數據品質流程。此外，該流程還利用了我們在構建 SYNTH 數學管道時發現的一個現象：人類（以及經過適當引導的模型）無需參考最終答案即可識別出推理過程存在缺陷的情況。該論文還提到了一種可能在合成管線中廣泛應用的技術：“元驗證器”，其本質上是對評估過程本身進行評估。因為即使是驗證器也可能被獎勵作弊：“在訓練過程中評估有缺陷的證明（其中 si < 1）時，驗證器可以通過預測正確分數來獲得全部獎勵，同時卻臆想出一些根本不存在的問題。” 首先在合成草稿中進行人工標註，然後這些標註反過來用於建立評估器，評估器會遞歸地產生更好的證明和越來越好的求解路徑。總的來說，這個過程形成了一個正回饋循環：“證明驗證器和生成器形成了一個協同循環：驗證器改進生成器，而隨著生成器的改進，它會產生新的證明，從而挑戰驗證器當前的水平。” 所有驗證器/元驗證器/最終模型的訓練都採用強化學習（RL）完成（對於非常大的模型來說，這很合理，因為SFT/midtrain可能會造成相當大的破壞）。然而，即便如此，RLVR日益增長的複雜性（無法局限於簡單的形式化「驗證」）仍然需要開發整合化、日益自給自足的合成流程。數學證明者再次將LLM研究帶到了真正的前沿，並帶來了創意和優雅的解決方案，這些解決方案很可能在未來幾個月內滋養整個領域。

來自 Alexander Doria（@Dorialexander）的推文串

作者資訊

推文串內容