속보: 사전 학습을 위한 완전 합성 일반화 데이터셋, SYNTH, 그리고 이 데이터셋을 기반으로 학습된 두 가지 새로운 SOTA 추론 모델을 공개합니다. 2,000억 개의 토큰만 사용했음에도 불구하고, Baguettotron은 현재 동급 최고의 규모를 자랑합니다.
SYNTH는 기존의 사전 훈련 방식과는 근본적으로 다릅니다. 추론 능력을 훈련하고 중요한 지식과 기술의 습득에 집중한다면 어떨까요? SYNTH의 핵심은 위키피디아 5만 개의 "필수" 문서를 업샘플링한 것입니다. https://t.co/qrBybjF78m
SYNTH는 여러 개의 합성 플레이그라운드로 구성된 컬렉션입니다. 데이터는 간단한 프롬프트를 통해 생성되는 것이 아니라 시딩, 제약 조건, 공식 검증/검사를 통해 워크플로에 더 작고 미세하게 조정된 모델을 통합하여 생성됩니다.
SYNTH는 추론 능력을 훈련하도록 설계되었기 때문에 훈련 초기에 실제 추론 신호를 얻습니다. Baguettotron의 경우, MMLU는 토큰 수가 100억 개 미만일 때 비무작위성을 보이기 시작하여 SOTA에 가까운 성능을 빠르게 달성합니다.
합성 놀이터를 통해 일련의 통제된 실험이 가능해졌고, 이를 통해 극한의 깊이감 있는 디자인을 선호하게 되었습니다. 바게토트론에는 80층 구조를 채택하여 논리적 추론 기억력을 전반적으로 향상시켰습니다. https://t.co/rdn902oTGN
Baguettotron과 함께 현재까지 가장 작은 실행 가능한 언어 모델을 출시합니다. 56M 크기의 변환기인 Monad는 SYNTH의 영어 부분을 학습하여 MMLU에서 비무작위적인 성능을 보였습니다. Monad 설계는 맞춤형 소형 토크나이저가 필요한 엔지니어링 과제입니다. https://t.co/hC8SLV1SLc
두 모델 모두 사고 추적을 통해 Qwen과 유사한 명령어 스타일로 네이티브 학습되었습니다. 저희는 압축된 구문, 초안 기호, 그리고 시뮬레이션된 엔트로피(Entropix 프로젝트에서 영감을 받음)를 통해 소규모 모델에 최적화된 완전히 새로운 추론 스타일을 설계했습니다.
이번 릴리스를 통해 사전 학습 연구(NanoGPT, NanoChat)를 위한 새로운 생태계와 설명 가능성(문자 그대로 Monad를 현미경으로 볼 수 있음) 및 프론티어 모델을 중심으로 한 툴링 오케스트레이션을 지원하는 것을 목표로 합니다.
우리는 합성 데이터가 특화된 소규모 모델을 구축하는 데 필요한 리소스이자 LLM 애플리케이션의 데이터 계층을 확장/강화하는 일반적인 프로세스라고 믿습니다. 이는 연구를 넘어, 이제 우리의 새로운 제품 개발 단계에서 중요한 요소가 될 것입니다.
전체 보고서가 발표되기 전에, 합성 파이프라인에 대한 과학적 결과와 비하인드 스토리를 담은 자세한 블로그 발표가 있었습니다. https://t.co/rixJOesC08





