2/n: '나는 정말 멍청하다' 순간(DeepSeek R1의 '아하 순간'과 유사) DeepSeekMath-V2 논문에서 가장 중요한 기술적 혁신은 IMO Gold 수준의 성능이 아닙니다!!!! 그렇다면 무엇이 혁신일까요? 모델이 자체 샘플링된 생성을 안정적으로 검증할 수 있는 기능을 부여하는 것입니다. 이는 LLM(추론 기반 LLM 포함)에게는 매우 어려운 과제였습니다. 인용하다: "증명 생성기가 한 번에 완벽하게 정확한 증명을 생성하지 못하는 경우(IMO나 CMO와 같은 대회의 까다로운 문제에서 흔히 발생하는 현상), 반복적인 검증 및 개선을 통해 결과를 (어느 정도) 개선할 수 있습니다. 여기에는 외부 검증 도구를 사용하여 증명을 분석하고 생성기가 발견된 문제를 해결하도록 유도하는 과정이 포함됩니다. 그러나 우리는 중요한 한계를 발견했습니다. 한 번에 자체 증명을 생성하고 분석하라는 요청을 받으면, 외부 검증자가 결함을 쉽게 발견하더라도 생성자는 정확하다고 주장하는 경향이 있습니다. 다시 말해, 생성자는 외부 피드백을 기반으로 증명을 개선할 수 있지만, 전담 검증자와 동일한 엄격성을 가지고 자체 작업을 평가하지 못합니다. 이러한 관찰을 통해 우리는 증명 생성기에 진정한 검증 기능을 부여하게 되었습니다." @gm8xx8 @teortaxesTex @rohanpaul_ai @ai_for_success
3/n: DeepSeekMath-V2 모델은 문자 그대로 부정행위를 하지 말라고 위협을 받았습니다. 프롬프트 템플릿에서 확인하실 수 있습니다. 량 웬펑은 엄격한 부모입니다!!!
