조금 늦었지만 deepseek math v2 논문을 읽었습니다. 이는 대규모 언어 모델을 사용하여 폐쇄 소스(즉, IMO Gold)에서 보였던 성공을 재현한 최초이자 유일한 작업입니다. 여기에는 새로운 것이 별로 없습니다. 내가 가장 눈에 띄는 것을 말해야 한다면 다음과 같습니다. > 단순히 답변에 대한 보상이 올바른 추론 과정을 보장하지 않는다는 생각입니다. > 그래서 우리는 17.5k의 전문가 등급 데이터에 대한 검증기를 훈련합니다. > 검증자가 잘못 평가하지 않도록 메타 검증자를 훈련합니다. 사실, 들리는 것만큼 간단하며, 저는 오픈 소스 IMO 골드 모델이 좀 더 멋진 것을 사용할 것으로 기대했습니다. 검증되거나 폐기되기를 바라는 애완 동물 이론이 몇 가지 있었지만, 그런 기능을 갖춘 일반주의 모델로 옮겨가면 그런 것을 볼 수 있을 것 같습니다. 그때까지 그것은 상당히 간단하지만 컴퓨팅 집약적이고 데이터 큐레이션 접근 방식에 의존하는 위대한 북극성이었고, 작년까지 모델에 대해 엄청나게 어렵다고 여겨졌던 것을 우리에게 제공했습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
