小紅書發布RedOne 2.0:針對小紅書等社交網路服務(SNS) 領域的漸進式強化學習優先後訓練框架,透過探索學習、針對性微調和精煉學習三階段管道,以更少數據實現小型LLM 在動態多任務環境中的高效、魯棒適應。 背景與挑戰社交網路服務如小紅書,已成為資訊交流的核心平台,但LLM 在其中的應用面臨獨特難題:工作負載異質化(例如即時內容審核、個人化推薦對話和創作者輔助)、快速演變的網絡規範與俚語,以及多語言、多文化語料導致的分佈偏移。這些因素容易引發模型泛化失效、政策執行偏差或災難性遺忘。傳統SFT 雖能提升特定任務效能,卻常造成「蹺蹺板效應」-領域內收益伴隨領域外魯棒性下降,尤其在參數規模較小的模型上。 RedOne 2.0 正是針對這些痛點,設計了一個分階段的RL 導向範式,實現快速、穩定的適應,同時避免過度擬合。 核心方法:三階段RL 優先管道論文的核心創新在於一個漸進式後訓練框架,基於精心curation 的資料集D(包括SNS 專用語料D_SNS,涵蓋75+ 任務如分類、翻譯等,與通用語料D_GEN 混合)。框架分為三個互補階段,確保從初始對齊到精細優化的閉環: 1. 探索學習(Exploratory Learning):使用約75萬條SNS 資料(含75個任務)和5萬個通用資料(含推理鏈)進行初始對齊。透過任務特定獎勵函數(如精確配對用於封閉任務、評估指標用於開放任務)診斷模型弱點。採用DAPO(一種高效能RL 演算法)最佳化策略,辨識高價值樣本,實現初步適應。 2. 針對性微調(Targeted Fine-Tuning):針對階段1暴露的弱點,建構1.8萬個混合資料集(主要來自失敗樣本的SNS 資料+軟標籤通用資料)。應用SFT 損失函數,融合硬負樣本和軟正則化,修復差距的同時防止遺忘。設計上強調動態取樣,避免純SFT 的過度擬合風險。 3. 精進學習(Refinement Learning):以約40萬條SNS/通用混合資料(57%含推理)收尾,再次施加DAPO RL,鞏固改進並平衡多任務效能。整個管路注重RL 的優先級,確保小模型(如4B 參數)也能有效率收斂(訓練步數控制在500步內,學習率5e-6)。 實驗結果與驗證實驗以Qwen3-4B 作為基座模型,在三個基準上評估:通用基準(General-Bench,包括知識、數學、程式碼等,如MMLU、GSM8K);SNS 專用基準(SNS-Bench,8項任務如命名實體辨識、查詢生成);SNS 翻譯基準(SNS-TransBench,英中查詢。結果顯示: · RedOne 2.0-4B 在通用任務平均得分70.80、SNS 任務67.57、翻譯47.67,超越同規模基線(如RedOne-7B,提升6.97點),並與更大模型(如30B 變體)競爭(整體提升4.37點)。 · 消融實驗證實各階段貢獻增加:探討學習提升SNS 基準9.29點;針對性微調再增加2.42點;精煉學習固化1.90點。相較於純SFT+RL 基線,框架在通用任務上多出1.00點、SNS 上4.54點。 · 線上A/B 測試(涵蓋300萬用戶)驗證實際價值:個人化標題重構任務中,模型提升廣告價值0.43%、減少模糊標題11.9%,並在品質指標上改善7.1%–25.8%。案例分析顯示輸出更具吸引力,但偶有事實遺漏。 主要貢獻與意義 1. 建構了一個SNS 領域LLM 基準,使用更少資料和更小規模模型實現SOTA 效能 2. 提出RL 優先的分階段範式,緩解SFT 的蹺蹺板效應,促進一致性改進 3. 透過廣泛實證,證明其在分佈偏移下的穩健性和實際部署潛力。 從更廣視角來看,這項研究為動態領域(如SNS)的LLM 後訓練提供了典範轉移思維:強調RL 的引導作用,能降低運算成本(適用於中小團隊),並增強模型在異質任務間的遷移。限制包括潛在的過度優化(如偏好吸引力而犧牲事實性),未來可進一步強化忠實度機制。 論文地址:
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
