雖然有點晚了,但我讀了 DeepSeek Math V2 的論文。 這是第一個也是唯一一個利用大型語言模型複製閉源(即 IMO Gold)所取得的成功的作品。 這裡沒有什麼新東西。 如果要說最突出的地方,那就是: 簡單來說,獎勵答案並不能保證推理過程的正確性。 因此,我們使用來自 17.5k 個資料集的專家評分資料訓練了一個驗證器。 我們訓練了一個元驗證器,以進一步確保驗證器不會給出錯誤的評分。 實際上它就像聽起來那麼簡單,我原本還以為開源的IMO黃金模型會使用更複雜的東西呢。 我有一些個人理論想看看能否被驗證或被推翻,但我想當我們轉向具有這種能力的通用模型時,我們就能看到這些理論了。 在此之前,它就像一顆指路明燈,採用相當簡單但計算量大、依賴數據整理的方法,為我們帶來了去年之前模型還被認為極其困難的東西。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
