시나 웨이보는 최근 15억 개의 매개변수를 가진 "소형 모델"인 "VibeThinker-1.5B"를 오픈소스로 공개했습니다. 학습 비용은 7,800달러에 불과합니다. 수학이나 코딩과 같은 복잡한 추론 과제에서 이 모델은 대형 모델 수준에 도달하거나 심지어 능가했습니다! 배경 및 동기: 왜 작은 모델이 '돌아올 수' 있을까? OpenAI의 o1 모델은 "대규모 추론 모델"(LRM) 시대를 열었으며, 강화 학습과 장연쇄 추론(LCOT)을 통해 수학적 정리 증명, 임상 진단, 프로그래밍 경진 대회 등의 분야에서 인간에 가까운 전문가 수준을 달성했습니다. DeepSeek R1(671B)과 Kimi K2(>1T)와 같은 후속 오픈소스 프로젝트들은 매개변수가 많을수록 추론 능력이 강력해진다는 "규모의 법칙"을 더욱 강화했습니다. 작은 모델은 본질적으로 취약하며 매우 복잡한 문제를 처리할 수 없는 것으로 간주됩니다. 이 논문의 저자들은 이러한 관점에 이의를 제기했습니다. 작은 모델로 시작하고 영리한 훈련 전략을 적용하면 숨겨진 추론 잠재력을 발휘할 수 있을까요? 정답은 '예'입니다. Qwen2.5-Math-1.5B 모델을 기반으로 한 VibeThinker-1.5B는 훈련 후 최적화를 거쳐 벤치마크 테스트에서 상당한 향상을 보였습니다. AIME24 수학 테스트에서 6.7점에서 80.3점으로, LiveCodeBench V6 코딩 벤치마크에서는 0점에서 51.1점으로 상승했습니다. 더욱 놀라운 것은 DeepSeek가 400배 이상 많은 매개변수를 가지고 있음에도 불구하고 여러 수학 문제에서 DeepSeek R1보다 약간 더 나은 성능을 보였다는 것입니다. 이는 추론 능력의 병목 현상이 "크기"가 아니라 훈련 패러다임의 혁신에 있음을 보여줍니다. 핵심 혁신: 스펙트럼-신호 원리 본 논문은 지도 학습(SFT)과 강화 학습(RL)의 협업을 재정의하는 프레임워크인 "스펙트럼 신호 원리"(SSP)를 제안합니다. 기존 방식에서는 SFT를 "최적의 답을 정확하게 찾는" 단계로 보는 반면, 강화 학습은 이를 더욱 정교하게 다듬습니다. 그러나 저자들은 이러한 방식이 모델을 단일 경로의 "국소 최적"에 가두어 후속 탐색 공간을 제한할 수 있다고 주장합니다. SSP는 두 단계를 상호 보완적인 역할로 분리합니다. • 스펙트럼 단계(SFT): 다양성 탐색 SFT는 더 이상 단일 세대(Pass@1)의 정확도를 추구하지 않고, 다중 샘플링(Pass@K)의 성공률을 최적화하여 "풍부한 스펙트럼", 즉 잠재적으로 올바른 여러 해법을 생성합니다. 이를 통해 모델이 좁은 패턴에 얽매이지 않고 문제 해결의 견고성과 창의성을 향상시킵니다. 구현에서는 "2단계 다양성 탐색적 증류" 접근 방식을 채택합니다. 1. 도메인 인식 다양성 감지: 수학적 도메인은 하위 도메인(대수 및 기하학 등)으로 나뉘고, 강력한 LLM을 사용하여 각 하위 도메인에 대한 프로브 세트를 생성하여 Pass@K에서 가장 적합한 "전문가 모델"을 선택합니다. 2. 전문가 모델 융합: 전문가 모델들은 가중 평균화(균일 가중치)를 통해 통합되어 통합된 SFT 모델을 형성합니다. 이를 통해 정확도와 다양성의 균형을 이루고 강화학습(RL)의 기반을 마련합니다. • 신호 전달 단계(RL): 올바른 경로 증폭 RL은 SFT의 "스펙트럼"에서 최적의 추론 궤적을 선택하고 강화합니다. 저자들은 그룹 상대 정책 최적화(GRPO)의 확장인 "최대 엔트로피 기반 정책 최적화(MGPO)"를 소개합니다. GRPO는 외부 가치 함수의 복잡성을 피하면서 여러 응답 세트를 샘플링하여 상대적 이점을 계산합니다. MGPO는 최대 엔트로피 원리를 더욱 통합합니다. 즉, 불확실성이 높은(정확도가 50%에 가까운, 즉 이진 분포의 최대 엔트로피 지점) 훈련 샘플의 우선순위를 정하고, 엔트로피 편향 정규화를 사용하여 이점 함수에 가중치를 부여합니다. 이를 통해 모델은 이미 숙달된 간단한 작업에 대한 계산 낭비를 방지하여 "고가치" 문제에 효율적으로 집중할 수 있습니다. RL은 두 가지 하위 단계로 구성됩니다. 첫째, 수학적 추론(컨텍스트가 16K에서 32K로 확장됨)이고, 둘째, 이진 정확성을 보상 함수로 하는 인코딩 생성입니다. 또한, 본 논문은 데이터 정제(data sanitization)를 강조합니다. 10그램 시맨틱 매칭을 사용하여 훈련 세트와 테스트 세트 간의 중복을 제거하고 결과의 신뢰성을 보장합니다. 훈련 데이터는 오픈소스 데이터셋과 합성 데이터를 결합하여 수학 및 코딩 분야를 포괄합니다. 실험 및 결과: 작은 모델 뒤에 숨은 "큰 논리" VibeThinker-1.5B는 수학(MATH-500, AIME24/25, HMMT25), 코딩(LiveCodeBench V5/V6), 지식(GPQA-Diamond)을 포함한 여러 벤치마크에서 평가되었습니다. 평가는 vLLM 백엔드를 사용하여 수행되었으며, 멀티 샘플링 Pass@1과 온도는 0.6(수학은 1.0)으로 설정되었습니다. • 소형 모델과 비교: VibeThinker는 3B 미만 범주에서 탁월한 성과를 보이며 AIME25 점수 74.4(Qwen3-1.7B는 36.8), HMMT25 점수 50.4(SmolLM-3B는 26.0), 코딩 V6 점수 51.1(기본 모델 0.0)을 달성했습니다. • 대규모 추론 모델과 비교: 수학적으로 DeepSeek R1(AIME24: 80.3 vs. 79.8; AIME25: 74.4 vs. 70.0; HMMT25: 50.4 vs. 41.7)보다 약간 우수한 성능을 보이며, MiniMax-M1-456B와 동등 수준입니다. 코딩 성능은 Magistral Medium(55.9 vs. 59.4)보다 약간 낮습니다. • 상위 비추론 모델과 비교했을 때: GPT-4.1(AIME24: 80.3 vs. 46.5) 및 Kimi K2(49.5)보다 수학적으로 우수하고, Claude Opus 4(51.1 vs. 47.4)보다 코딩 성능이 우수합니다. 그러나 GPQA 지식 테스트(46.7 vs. 70-82)에서는 여전히 뒤처져 있어, 소규모 모델은 광범위한 지식 영역에서 추가 최적화가 필요함을 시사합니다. 이러한 결과는 SSP의 효과를 확인시켜 줍니다. 다양성 중심 접근 방식을 통해 소규모 모델은 추론 집약적 작업에서 "소량의 리소스로 뛰어난 결과"를 달성할 수 있습니다. 토론 및 영향: AI 환경 재편 VibeThinker의 성공은 매개변수 스태킹이 아닌 알고리즘 설계에 기인하며, 추론 비용을 대형 모델의 1/30~1/60 수준으로 줄이고 엣지 배포를 용이하게 합니다(추론 비용 20~70배 감소). 이는 규모의 법칙의 한계를 드러냅니다. 특히 수학/코딩 영역에서 소형 모델의 잠재력이 과소평가되고 있습니다. 그러나 지식 벤치마크의 격차는 일반화된 지식의 주입을 강화하기 위한 향후 노력이 필요함을 시사합니다. 오픈소스 모델 및 기술 보고서:
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
