DeepSeek-Math-V2입니다. "더 나은 검증 도구를 어떻게 훈련시킬까?"라는 부제를 붙일 수 있고, 그 대부분은 간단히 말해서... 더 나은 데이터 작업과 합성 파이프라인입니다(모든 모델이 RL로 훈련되더라도 말입니다). DeepSeek은 R0가 처음에 약속했던 자발적인 자체 검증과는 거리가 멉니다. 그 이유는 이 접근 방식이 확장 가능하지 않기 때문입니다. 까다로운 추론을 통해 마침내 정답을 도출하는 방식은 여전히 매우 취약하고 실패하기 쉽습니다. 이 프로젝트는 인간 주석으로 시작했지만, 고수준 전문가를 대상으로 하며, 그 자체로 업계 전반의 변화를 반영하고 있습니다. 최고의 데이터 품질 프로세스를 확장/자동화하려는 노력의 일환입니다. 이 프로세스는 SYNTH를 위한 수학 파이프라인을 구축하면서 발견한 사실, 즉 인간(그리고 적절하게 유도된 모델)이 최종 답을 참조하지 않고도 왜곡된 추론 사례를 식별할 수 있다는 점을 활용합니다. 이 논문은 합성 파이프라인에서 널리 사용될 가능성이 높은 기술인 "메타 검증기"를 언급합니다. 이는 기본적으로 평가 프로세스 자체를 평가하는 것입니다. 검증기조차도 보상을 해킹당할 수 있기 때문입니다. "학습 과정에서 결함이 있는 증명(𝑠𝑖 < 1)을 평가할 때, 검증기는 존재하지 않는 문제를 환각하면서 정확한 점수를 예측함으로써 완전한 보상을 받을 수 있습니다." 사람이 주석을 달면 먼저 합성 초안으로 작성된 후, 평가기를 구축하는 데 사용되어 재귀적으로 더 나은 증명과 점점 더 나은 해결 경로를 생성합니다. 전반적으로 이 과정은 긍정적인 피드백 루프를 생성합니다. "증명 검증기와 생성기는 시너지 효과를 내는 순환 구조를 형성합니다. 검증기는 생성기를 개선하고, 생성기가 개선됨에 따라 검증기의 현재 역량에 도전하는 새로운 증명을 생성합니다." 검증기/메타 검증기/최종 모델의 모든 학습은 강화학습(RL)을 통해 수행됩니다(SFT/중간 학습은 상당히 파괴적일 수 있으므로 매우 큰 모델에 적합합니다). 그러나 RLVR의 복잡성이 단순한 형식적 "검증"에만 국한될 수 없기 때문에, 통합적이고 자립적인 합성 파이프라인의 개발이 필요합니다. 수학적 증명은 다시 한번 LLM 연구를 실제 최전선으로 끌어올리고, 앞으로 몇 달 안에 전체 분야에 영향을 미칠 만한 창의적이고 우아한 솔루션을 도출해냈습니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.