Xiaohongshuは、Xiaohongshuのようなソーシャルネットワーキングサービス(SNS)向けの漸進的強化学習(PRE)を基盤としたフレームワーク、RedOne 2.0をリリースしました。RedOneは、探索的学習、ターゲットを絞ったファインチューニング、そして洗練学習という3段階のパイプラインを通じて、少ないデータ量で、動的なマルチタスク環境における小規模LLMの効率的かつ堅牢な適応を実現します。 背景と課題:Xiaohongshuのようなソーシャルネットワーキングサービスは情報交換の中心的なプラットフォームとなっていますが、そこでのLLMの適用には特有の課題が伴います。例えば、異種ワークロード(例:リアルタイムコンテンツモデレーション、パーソナライズされた推奨ダイアログ、クリエイター支援)、急速に変化するオンライン規範やスラング、多言語・多文化コーパスに起因する分布バイアスなどです。これらの要因は、モデルの一般化の失敗、ポリシー実装バイアス、あるいは壊滅的な健忘症(カタストロフィック・アムネスティ)に容易につながります。従来のSFTは特定のタスクのパフォーマンスを向上させる一方で、「シーソー効果」を引き起こすことがよくあります。つまり、ドメイン内でのパフォーマンス向上は、特にパラメータサイズの小さいモデルにおいて、ドメイン外の堅牢性の低下を伴います。RedOne 2.0は、過学習を回避しながら迅速かつ安定した適応を実現する段階的なRL指向パラダイムを設計することで、これらの問題点に対処します。 コア手法:3段階の強化学習ファーストパイプライン論文の核となる革新性は、厳選されたデータセットD(分類や翻訳など75以上のタスクをカバーするSNS専用コーパスD_SNSと、一般コーパスD_GENを混合したもの)に基づく、段階的な学習後フレームワークにあります。このフレームワークは3つの補完的なステージで構成され、初期アライメントから微調整までのクローズドループを実現します。 1. 探索的学習:約75万個のSNSデータポイント(75個のタスクを含む)と5万個の一般データポイント(推論チェーンを含む)を用いて初期アライメントを実施します。タスク固有の報酬関数(例:クローズドタスクの場合は完全一致、オープンタスクの場合は評価指標)を用いてモデルの弱点を診断します。DAPO(効率的な強化学習アルゴリズム)最適化戦略を用いて、高価値サンプルを特定し、初期適応を実現します。 2. ターゲットを絞ったファインチューニング:フェーズ1で明らかになった弱点に対処するため、18,000サンプルのハイブリッドデータセット(主に不合格サンプルのSNSデータとソフトラベル付きの一般データ)を構築しました。SFT損失関数を適用し、ハードネガティブサンプルとソフト正則化を融合することで、ギャップを修正しながら忘却を防止しました。純粋なSFTにおける過剰適合リスクを回避するため、動的サンプリングを重視した設計となっています。 3. 洗練学習:このプロセスは、約40万件のSNS/一般混合データセット(推論を含む57%)で完了し、その後、DAPO RLを2度目に適用して、マルチタスク性能の統合、改善、バランス調整を行います。パイプライン全体でRLを優先することで、小規模なモデル(例:40億パラメータ)でも効率的な収束を実現します(トレーニングステップは500未満、学習率は5e-6)。 実験結果と検証:実験ではQwen3-4Bをベースモデルとして用い、3つのベンチマークで結果を評価しました。1つは一般的なベンチマーク(MMLUやGSM8Kなどの知識、数学、コードを含む)、もう1つはSNS固有のベンチマーク(SNS-Bench、固有表現認識やクエリ生成などの8つのタスクをカバー)、もう1つはSNS翻訳ベンチマーク(SNS-TransBench、BLEU/chrF++メトリクスを用いた英中翻訳)です。結果は以下の通りです。 RedOne 2.0-4B は、一般タスクで平均スコア 70.80、SNS タスクで 67.57、翻訳で 47.67 を達成し、同様のサイズのベースライン (6.97 ポイントの改善を達成した RedOne-7B など) を上回り、より大規模なモデル (30B バリアントなど) と競合しました (全体で 4.37 ポイントの改善を達成)。 • アブレーション実験では、各段階における貢献度が徐々に増加することが確認されました。探索的学習はSNSベースラインを9.29ポイント向上させ、ターゲットを絞った微調整はさらに2.42ポイント向上させ、精緻化学習は1.90ポイントの貢献度を強固なものにしました。純粋なSFT+RLベースラインと比較すると、このフレームワークは一般タスクで1.00ポイント、SNSで4.54ポイント高い成果を上げています。 • オンラインA/Bテスト(300万人のユーザーを対象)により、実世界における価値が検証されました。パーソナライズされたタイトル再構築タスクにおいて、モデルは広告価値を0.43%向上させ、曖昧なタイトルを11.9%削減し、品質指標を7.1%~25.8%向上させました。ケーススタディではより魅力的な出力結果が示されていますが、一部の事実が見逃されることもありました。 主な貢献と意義 1. SNS ドメインにおける LLM のベンチマークが構築され、より少ないデータとより小さなモデルを使用して最先端のパフォーマンスが達成されました。 2. 構造力解析 (SFT) のシーソー効果を軽減し、一貫した改善を促進するために、強化学習 (RL) を優先する段階的なパラダイムを提案します。 3. 広範な実証的研究により、分布の変化に対する堅牢性と実用的な展開可能性が実証されています。 より広い視点から見ると、本研究は、動的な領域(ソーシャルネットワーキングサービスなど)におけるLLM後の学習にパラダイムシフトをもたらす。強化学習(RL)の誘導的役割を重視することで、計算コストを削減し(小規模から中規模のチームに適している)、異種タスク間でのモデルの移植性を高めることができる。限界としては、過剰最適化の可能性(事実性を犠牲にして魅力を優先するなど)が挙げられ、今後の研究では忠実度メカニズムをさらに強化できる可能性がある。 論文の宛先:
スレッドを読み込み中
X から元のツイートを取得し、読みやすいビューを準備しています。
通常は数秒で完了しますので、お待ちください。
