X (Twitter)

雖然有點晚了，但我讀了 DeepSeek Math V2 的論文。這是第一個也是唯一一個利用大型語言模型複製閉源（即 IMO Gold）所取得的成功的作品。這裡沒有什麼新東西。如果要說最突出的地方，那就是：簡單來說，獎勵答案並不能保證推理過程的正確性。因此，我們使用來自 17.5k 個資料集的專家評分資料訓練了一個驗證器。我們訓練了一個元驗證器，以進一步確保驗證器不會給出錯誤的評分。實際上它就像聽起來那麼簡單，我原本還以為開源的IMO黃金模型會使用更複雜的東西呢。我有一些個人理論想看看能否被驗證或被推翻，但我想當我們轉向具有這種能力的通用模型時，我們就能看到這些理論了。在此之前，它就像一顆指路明燈，採用相當簡單但計算量大、依賴數據整理的方法，為我們帶來了去年之前模型還被認為極其困難的東西。

來自 tokenbender（@tokenbender）的推文串

作者資訊

推文串內容