少し遅れましたが、DeepSeek Math v2 の論文を読みました。 これは、クローズド ソース、つまり IMO Gold で見られた成功を、大規模言語モデルを使用して再現した最初で唯一の作業です。 ここには新しいものはあまりありません。 何が際立っているかと言うと、次のようになります。 > 答えに報酬を与えるだけでは正しい推論プロセスを保証するものではないという考え > そこで、17.5kからの専門家グレードデータを使って検証器を訓練します > メタ検証者を訓練し、検証者が誤って採点していないことをさらに確認します 実際のところ、それは聞こえるほど単純であり、オープンソースの IMO ゴールド モデルでは、もっと高度なものが使用されると期待していた部分もありました。 私には検証されたり否定されたりすることを望んでいるお気に入りの理論がいくつかありましたが、そのような機能を備えた汎用モデルに移行すれば、それがわかるようになると思います。 それまでは、これは非常にシンプルだが計算負荷が高く、データ キュレーション アプローチを重視した偉大な北極星であり、昨年までモデルにとって非常に困難であると考えられていたものを実現してくれます。
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
