1/4 커서의 자체 코딩 모델 컴포저는 최첨단이며, 4배 더 빠르고 저렴합니다. 이를 통해 Cursor는 OpenAI와 Anthropic에 대한 의존도를 줄일 수 있습니다. 직접 모델을 만들 수 있는데 굳이 OpenAI와 Anthropic의 모델을 개선할 필요가 있을까요?
2/4 MoE 모델(대부분 중국 모델을 기본 모델로 사용)에 대한 대규모 RL을 수행했습니다. RLed 모델은 코드를 변경하기 전에 병렬 도구 호출과 더 많은 읽기 및 검색을 자동으로 학습했습니다. 이러한 동작은 자연스럽게 나타났습니다.
3/4 RL의 궤적을 수집하기 위해 RL 환경을 어떻게 개발했나요? 그들은 백그라운드 에이전트 인프라를 다른 용도로 변경했습니다. "강화학습(RL) 과정에서는 모델이 커서 에이전트 하네스의 모든 도구를 호출할 수 있기를 바랍니다. 이러한 도구를 사용하면 코드 편집, 의미 검색, 문자열 검색, 터미널 명령 실행이 가능합니다. 우리의 규모에서, 모델이 이러한 도구를 효과적으로 호출하도록 가르치려면 클라우드에서 수십만 개의 샌드박스 코딩 환경을 동시에 실행해야 합니다. 이러한 작업 부하를 지원하기 위해 백그라운드 에이전트를 위해 구축한 기존 인프라를 조정하고, 버스트적 특성과 대규모 학습 실행을 지원하도록 가상 머신 스케줄러를 다시 작성했습니다. 이를 통해 RL 환경과 프로덕션 환경을 원활하게 통합할 수 있었습니다."
4/4 커서의 Composer 모델 훈련을 위한 물리적 인프라. 그들은 수천 개의 GPU를 사용하여 학습을 완료했고, 지금도 계속 학습하고 있다고 주장합니다. 그들은 낮은 정밀도로 모델을 학습시키고, 비동기 강화학습(RL)을 사용합니다. (다음 트윗에서 자세히 설명하겠습니다.) 인용문: "우리는 PyTorch와 Ray를 활용하여 대규모 비동기 강화 학습을 구동하는 맞춤형 교육 인프라를 구축했습니다. 저희는 MXFP8 MoE 커널을 전문가 병렬 처리 및 하이브리드 샤드 데이터 병렬 처리와 결합하여 기본적으로 낮은 정밀도로 모델을 훈련시켜 최소한의 통신 비용으로 수천 개의 NVIDIA GPU로 훈련을 확장할 수 있습니다. 또한 MXFP8을 사용하여 학습하면 학습 후 양자화가 필요 없이 더 빠른 추론 속도를 제공할 수 있습니다."
5/5 Customer Composer 모델 학습에 사용되는 비동기 RL이란 무엇입니까? 느린 작업(예: 긴 롤아웃 생성)을 기다리지 않기 위해 여러 수준에서 비동기 실행을 사용합니다. 아시다시피, GRPO와 같은 강화학습에서는 주어진 문제에 대해 여러 개의 궤적을 생성합니다. 하지만 일부 궤적은 완료하는 데 너무 오래 걸릴 수 있습니다. 그래서 충분한 궤적을 확보하면 훈련을 시작합니다. 일부 샘플/롤아웃은 나중에 업데이트된 모델로 재개됩니다. 이로 인해 일부 토큰은 이전 모델/정책에 의해 생성되고 일부는 새 모델/정책에 의해 생성되는 상황이 발생합니다. 하지만 이는 허용 가능합니다. 비동기 RL에 대해 더 자세히 알고 싶다면 비동기 RL 프로젝트인 APRIL을 읽어보세요.


