이건 흥미로운 연구 블로그인데, "RL이 소규모 서브넷을 조정한다"는 논문을 쓴 사람이 쓴 거예요. SGD-RLVR 조합은 매개변수의 0.01%만 업데이트되는 반면, adamW는 매개변수의 최대 90%가 업데이트된다는 점을 설명하기 때문에 유용하다고 생각합니다. 이는 최소한 RLVR의 경우 SGD보다 adamW를 버릴 수 있음을 의미합니다. 내 머릿속에는 여러 가지 질문이 있는데, 다음에 내 실험을 통해 답해보고 싶습니다. > 훈련 후 "SGD-안전 부분 공간"과 "adamW-필요 전체 공간"의 경계는 정확히 어디에 있습니까? > RLVR/SGD의 작은 활성 하위 네트워크를 다중 도메인 훈련을 위한 재사용 가능한 모듈식 어댑터 스택으로 체계적으로 전환할 수 있을까요? > 훈련 후 강제로 이런 작고 구조화된 부분 공간(RLVR/SGD에서 발견되었거나 LoRA로 설계됨)에서 작동하게 하면 모델의 전역 속성은 전체 공간 adamW RLHF/RLVR과 어떻게 달라지나요? 이 문제에 대해서는 소규모로 깔끔한 실험을 생각해 봐야 하며, 이 스레드를 직접 업데이트해야 할 것 같습니다. RLVR을 넘어서는 수확량은 많지 않을 수 있지만 아직 충분히 탐구되지 않은 문제입니다.
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.