Xiaohongshu는 Xiaohongshu와 같은 소셜 네트워킹 서비스(SNS)를 위한 진보적인 강화 학습 기반 선학습 프레임워크인 RedOne 2.0을 출시했습니다. RedOne 2.0은 탐색 학습, 목표 기반 미세 조정, 그리고 학습 개선의 3단계 파이프라인을 통해 적은 데이터로도 동적인 멀티태스킹 환경에서 소규모 LLM의 효율적이고 강력한 적응을 달성합니다. 배경 및 과제: 샤오홍슈(Xiaohongshu)와 같은 소셜 네트워킹 서비스는 정보 교환의 핵심 플랫폼이 되었지만, 이러한 서비스에 LLM을 적용하는 데에는 고유한 과제가 있습니다. 실시간 콘텐츠 관리, 개인 맞춤형 추천 대화, 제작자 지원 등 이질적인 워크로드, 빠르게 진화하는 온라인 규범 및 속어, 그리고 다국어 및 다문화 코퍼스로 인한 분포 편향이 그 예입니다. 이러한 요인들은 모델 일반화 실패, 정책 구현 편향, 또는 심각한 기억상실로 이어질 수 있습니다. 기존의 SFT는 특정 작업의 성능을 향상시킬 수 있지만, 종종 "시소 효과"를 유발합니다. 즉, 도메인 내에서는 성능이 향상되지만 도메인 외부에서는 강건성이 저하되는 현상이 발생하며, 특히 매개변수 크기가 작은 모델의 경우 더욱 그렇습니다. RedOne 2.0은 과적합을 방지하면서 빠르고 안정적인 적응을 달성하는 단계적 강화학습(RL) 지향 패러다임을 설계하여 이러한 문제점을 해결합니다. 핵심 방법론: 3단계 RL-first 파이프라인 논문의 핵심 혁신은 신중하게 큐레이션된 데이터셋 D(분류 및 번역 등 75개 이상의 작업을 포함하는 SNS 전용 코퍼스 D_SNS와 일반 코퍼스 D_GEN을 포함)를 기반으로 하는 점진적인 사후 학습 프레임워크에 있습니다. 이 프레임워크는 세 가지 상호 보완적인 단계로 구성되어 초기 정렬부터 미세 조정까지 닫힌 루프를 보장합니다. 1. 탐색적 학습: 약 75만 개의 SNS 데이터 포인트(75개 작업 포함)와 5만 개의 일반 데이터 포인트(추론 체인 포함)를 사용하여 초기 정렬을 수행합니다. 작업별 보상 함수(예: 종료된 작업에 대한 정확한 매칭, 진행 중인 작업에 대한 평가 지표)를 사용하여 모델의 취약점을 진단합니다. 효율적인 강화 학습 알고리즘인 DAPO 최적화 전략을 사용하여 고가치 샘플을 식별하고 초기 적응을 달성합니다. 2. 목표 미세 조정: 1단계에서 드러난 취약점을 해결하기 위해 18,000개 샘플(주로 실패 샘플의 SNS 데이터 + 소프트 레이블이 적용된 일반 데이터)로 구성된 하이브리드 데이터셋을 구축했습니다. SFT 손실 함수를 적용하여, 하드 네거티브 샘플과 소프트 정규화를 융합하여 학습 간극을 보정하고 망각을 방지했습니다. 순수 SFT의 과적합 위험을 방지하기 위해 동적 샘플링을 강조했습니다. 3. 정밀 학습: 이 프로세스는 약 40만 개의 SNS/일반 혼합 데이터셋(추론 포함 57%)으로 마무리되며, 이후 DAPO RL을 두 번째로 적용하여 멀티태스크 성능을 통합, 개선 및 균형 있게 조정합니다. 전체 파이프라인은 작은 모델(예: 매개변수 4B개)에서도 효율적인 수렴을 보장하기 위해 RL에 우선순위를 둡니다(훈련 단계는 500 미만, 학습률은 5e-6). 실험 결과 및 검증: 실험은 Qwen3-4B를 기본 모델로 사용하고, 세 가지 벤치마크를 통해 결과를 평가했습니다. 일반 벤치마크(MMLU 및 GSM8K와 같은 지식, 수학, 코드 포함), SNS 전용 벤치마크(개체명 인식 및 쿼리 생성 등 8가지 작업을 포함하는 SNS-Bench), 그리고 SNS 번역 벤치마크(BLEU/chrF++ 지표를 사용하는 영어-중국어 번역을 위한 SNS-TransBench)입니다. 결과는 다음과 같습니다. RedOne 2.0-4B는 일반 작업에서 평균 70.80점, SNS 작업에서 67.57점, 번역에서 47.67점을 달성하여 비슷한 규모의 기준선(예: RedOne-7B, 6.97점 향상)을 뛰어넘고 더 큰 모델(예: 30B 변형)(전체적으로 4.37점 향상)과 경쟁했습니다. • 절제 실험 결과, 각 단계의 기여도가 점진적으로 증가하는 것으로 나타났습니다. 탐색적 학습은 SNS 기준선을 9.29점 향상시키고, 목표 미세 조정은 2.42점을 추가하며, 개선된 학습은 기여도를 1.90점 향상시킵니다. 순수 SFT+RL 기준선과 비교했을 때, 이 프레임워크는 일반 과제에서 1.00점, SNS에서 4.54점 더 높은 점수를 달성했습니다. • 온라인 A/B 테스트(300만 명의 사용자 포함)를 통해 실제 가치를 검증했습니다. 개인화된 제목 재구성 작업에서 이 모델은 광고 가치를 0.43% 향상시키고, 모호한 제목을 11.9% 줄였으며, 품질 지표를 7.1%~25.8% 개선했습니다. 사례 연구에서는 더 매력적인 결과를 보여주었지만, 일부 사실은 간과되는 경우가 있었습니다. 주요 기여 및 의의 1. SNS 도메인에서 LLM에 대한 벤치마크가 구축되어 더 적은 데이터와 더 작은 모델을 사용하여 최첨단 성능을 달성했습니다. 2. 구조적 힘 분석(SFT)의 엇갈림 현상을 완화하고 지속적인 개선을 촉진하기 위해 강화 학습(RL)을 우선시하는 단계적 패러다임을 제안합니다. 3. 광범위한 실증적 연구를 통해 유통 변화에 따른 견고성과 실제 배치 잠재력이 입증되었습니다. 더 넓은 관점에서, 이 연구는 소셜 네트워킹 서비스와 같은 동적 영역에서 LLM 이후 학습에 대한 패러다임 전환을 제시합니다. 강화학습의 지도적 역할을 강조함으로써 연산 비용을 절감하고(중소규모 팀에 적합), 이질적인 작업 간 모델 전이성을 향상시킬 수 있습니다. 제한점으로는 과도한 최적화(사실성을 희생하고 매력성을 중시하는 등) 가능성이 있으며, 향후 연구를 통해 충실도 메커니즘을 더욱 강화할 수 있을 것입니다. 서류 주소:
스레드를 불러오는 중
깔끔한 읽기 화면을 위해 X에서 원본 트윗을 가져오고 있어요.
보통 몇 초면 완료되니 잠시만 기다려 주세요.
