X (Twitter)

커서 컴포저는 어떻게 구성되나요? @anyscalecompute Ray Summit에서 @cursor_ai의 연구원인 @srush_nlp가 한 기조연설은 기술 혁신, 과제, 실용적 응용 분야에 초점을 맞추었으며, 특수 AI 모델을 구축하는 데 있어 강화 학습의 역할을 강조했습니다. 작곡가의 핵심 특징과 동기 Rush는 Composer의 성능 주요 내용을 설명하며 시작했습니다. Cursor 내부 벤치마크에서 Composer의 성능은 최고 수준의 최첨단 모델에 근접했으며, 2024년 여름에 출시된 모델, 최고의 오픈소스 모델, 심지어 "빠르다"고 홍보되는 모델보다 더 뛰어났습니다. 더 나아가, 토큰 생성 효율성 측면에서 유사한 지능형 모델보다 4배 더 우수했으며, 실제 편집기 사용 속도도 훨씬 빨랐습니다. 이러한 특징으로 Composer는 단순히 "스마트"한 것이 아니라, 마치 빠르게 작동하는 것처럼 "느껴져" 사용자가 긴 응답을 기다리지 않고도 끊임없이 사고할 수 있도록 합니다. Composer의 영감은 Cursor 앱의 인기 있는 "Cursor Tab" 기능에서 비롯되었습니다. 이후 팀은 사용자들이 "외계 기술"이라고 묘사한 "Cheetah"라는 프로토타입 지능형 에이전트 모델을 개발했습니다. 이를 기반으로 효율성을 유지하면서 더욱 스마트한 버전을 만드는 것이 목표였습니다. Rush는 지능이 일반적인 벤치마크를 추구하는 것이 아니라, 대규모 코드베이스를 처리하고 코딩 스타일 표준을 준수하는 등 실제 코딩 시나리오를 해결하는 것이라고 강조합니다. 이러한 요소들은 일상적인 소프트웨어 개발에 매우 중요합니다. 더욱이 Composer는 "느낌이 빠른" 경험을 강조합니다. 토큰 생성이 효율적일 뿐만 아니라, 병렬 도구 호출(예: 코드 검색, 터미널 명령 실행, 파일 편집)을 활용하여 전체 프로세스를 몇 초 만에 완료합니다. Rush는 데모 영상을 통해 이러한 경험을 시연했습니다. 사용자가 쿼리를 제출하면 에이전트는 즉시 멀티스레드 방식으로 도구를 실행하여 편집 및 요약을 빠르게 생성합니다. 이는 기존 에이전트의 느린 반복 작업과는 극명한 대조를 이룹니다. 기술 구현: Agent RL 및 Infrastructure 프레젠테이션의 핵심은 Composer 구축 방법입니다. Rush는 Cursor의 작동 메커니즘을 간략하게 설명합니다. 사용자 쿼리가 백엔드로 전송되고, Agent는 토큰을 생성하며, XML 형식으로 도구 호출(예: 파일 읽기, 편집, 코드 검색, 명령 실행)을 수행합니다. 이러한 도구는 직렬 또는 병렬로 실행될 수 있으며, Agent는 IDE에 변경 사항을 실시간으로 표시합니다. Composer는 강화 학습(RL)을 사용하여 학습됩니다. 사용자 쿼리를 시작으로 여러 "롤아웃"(경로)을 시뮬레이션하며, 각 경로는 서로 다른 도구 시퀀스를 사용하여 문제를 해결하려고 시도합니다. 이러한 경로는 점수(예: 어떤 경로가 더 효과적인지)를 매겨지고, 모델 매개변수는 그에 따라 업데이트됩니다. 이는 최적의 경로를 최적화하기 위해 여러 Cursor 인스턴스를 병렬로 실행하는 것과 유사합니다. 러시는 세 가지 주요 과제에 대해 논의했습니다. 1. 학습 및 추론 매칭: 대규모 하이브리드 전문가(MoE) 모델을 사용하여 수천 개의 GPU에 분산 학습을 수행합니다. 연구팀은 저정밀도(MXFP8) 학습을 지원하는 맞춤형 커널을 개발하여 추가적인 양자화 없이도 3.5배 빠른 속도(특히 Blackwell 칩에서)를 달성했습니다. 2. 복잡한 롤아웃: 실제 코딩 작업에는 수십만 개에서 수백만 개의 토큰과 수백 건의 도구 호출이 필요하여 실행 시간이 고르지 않습니다. Ray 프레임워크는 로드 밸런싱을 관리하고 일부 경로가 너무 느린 "테일링" 문제를 방지하는 데 사용됩니다. 3. 일관성: 훈련 환경은 동일한 도구 응답을 포함하여 프로덕션 Cursor를 시뮬레이션해야 합니다. 팀은 Cursor의 "클라우드 에이전트" 인프라를 재사용하여 microVM을 사용하여 파일 수정 및 명령 실행을 지원하는 상태 저장 환경을 구축합니다. 동시에, 의미 검색을 위한 맞춤형 임베딩 모델이 통합되어 에이전트가 파일을 효율적으로 찾을 수 있도록 지원합니다. 이러한 인프라 결정(PyTorch 학습 서버, Ray 추론 서버, VM 환경 서버 통합 등)은 성공의 핵심이며, 학습과 실제 배포 사이의 원활한 전환을 보장합니다. 출시 일주일 후, Rush는 초기 결과, 통찰력, 그리고 미래 전망을 공유했습니다. RL의 각 반복마다 모델 성능은 오픈소스 수준에서 릴리스 버전까지 꾸준히 향상되어 컴퓨팅 투자의 효과를 입증했습니다. 모델은 더 많은 병렬 도구를 사용하는 방법을 학습하여 맹목적인 편집을 줄이고 대신 읽기와 검색에 집중함으로써 정확도를 향상시켰습니다. 사용자 피드백은 긍정적이었으며, 속도와 지능의 조합이 코딩 습관을 "에이전트를 시작하고 기다리는 것"에서 "문제 해결을 위한 빠른 반복"으로 바꾸었다고 평가했습니다. 러시의 성찰은 다음과 같습니다. • RL은 일반적인 LLM보다는 도메인별 모델을 구축하는 데 특히 적합합니다. AI는 R&D 프로세스를 혁신했습니다. 각 팀은 자체 AI 에이전트를 사용하여 대시보드와 백엔드를 구축하고, 소규모 팀의 반복 작업을 가속화합니다. • 인프라는 제품, 규모, ML의 긴밀한 통합을 수반하는 RL의 핵심 동력입니다. 비디오 주소:

meng shao(@shao__meng)의 스레드

작성자 정보

스레드 내용