4/4 커서의 Composer 모델 훈련을 위한 물리적 인프라. 그들은 수천 개의 GPU를 사용하여 학습을 완료했고, 지금도 계속 학습하고 있다고 주장합니다. 그들은 낮은 정밀도로 모델을 학습시키고, 비동기 강화학습(RL)을 사용합니다. (다음 트윗에서 자세히 설명하겠습니다.) 인용문: "우리는 PyTorch와 Ray를 활용하여 대규모 비동기 강화 학습을 구동하는 맞춤형 교육 인프라를 구축했습니다. 저희는 MXFP8 MoE 커널을 전문가 병렬 처리 및 하이브리드 샤드 데이터 병렬 처리와 결합하여 기본적으로 낮은 정밀도로 모델을 훈련시켜 최소한의 통신 비용으로 수천 개의 NVIDIA GPU로 훈련을 확장할 수 있습니다. 또한 MXFP8을 사용하여 학습하면 학습 후 양자화가 필요 없이 더 빠른 추론 속도를 제공할 수 있습니다."
5/5 Customer Composer 모델 학습에 사용되는 비동기 RL이란 무엇입니까? 느린 작업(예: 긴 롤아웃 생성)을 기다리지 않기 위해 여러 수준에서 비동기 실행을 사용합니다. 아시다시피, GRPO와 같은 강화학습에서는 주어진 문제에 대해 여러 개의 궤적을 생성합니다. 하지만 일부 궤적은 완료하는 데 너무 오래 걸릴 수 있습니다. 그래서 충분한 궤적을 확보하면 훈련을 시작합니다. 일부 샘플/롤아웃은 나중에 업데이트된 모델로 재개됩니다. 이로 인해 일부 토큰은 이전 모델/정책에 의해 생성되고 일부는 새 모델/정책에 의해 생성되는 상황이 발생합니다. 하지만 이는 허용 가능합니다. 비동기 RL에 대해 더 자세히 알고 싶다면 비동기 RL 프로젝트인 APRIL을 읽어보세요.
