이제 금수조치가 해제되었으므로 @EPFL에서 처음으로 진행된 Baguettotron 프레젠테이션 슬라이드와 블로그 게시물에 대한 몇 가지 추가적인 생각을 공유하게 되어 기쁩니다. 많은 사람이 알고 있듯이, 우리는 "합성 놀이터"라는 표현을 만들어낸 언어 물리학 모델에서 영감을 얻었고, 체계적인 "통제된 실험"을 설계하기 위해 합성 데이터를 사용하는 것을 장려했으며, LLM 연구를 현재의 매우 경험적인 데이터 접근 방식보다 물리학에 더 가깝게 만들었습니다. 이 컨퍼런스에는 심층 계층 아키텍처를 지지하는 매우 초기의 통제된 평가들이 포함되어 있습니다. 저희는 심층 스케일링이 고밀도 추론 추적을 통해 가장 큰 이점을 얻을 수 있다고 생각하며, 이를 통해 추론 시점에 여러 계층에 걸쳐 더욱 최적화된 조합 프로세스를 구현할 수 있을 것으로 예상합니다. 토론의 핵심 주제는 SYNTH를 이용한 신호 추론의 조기성이었고, 이를 계기로 Baguettotron의 150개 체크포인트를 소급적으로 벤치마킹하게 되었습니다. 수십억 개의 토큰이 포함된 MMLU에서는 모델이 무작위적이지 않다는 전반적인 결과에 놀랐습니다. (그리고 @mkurman88은 이제 그보다 훨씬 더 일찍 발생할 수 있다는 것을 보여주고 있습니다.) 저는 이 데이터 세트를 통해 앞으로 몇 달 안에 LLM 훈련에 대한 더욱 흥미로운 발견이 이루어지기를 바랍니다. 이제 토큰과 매개변수가 거의 없는 절제 훈련뿐만 아니라 전체 훈련을 실행할 수 있게 되었으니까요.
전체 프레젠테이션: https://t.co/3jPDpExmey