Xiaohongshu lance RedOne 2.0 : un framework d’apprentissage par renforcement progressif basé sur l’entraînement préalable, destiné aux services de réseaux sociaux (SNS) tels que Xiaohongshu. Grâce à un pipeline en trois étapes (apprentissage exploratoire, ajustement fin ciblé et apprentissage de perfectionnement), il assure une adaptation efficace et robuste des petits modèles linéaires logiques (LLM) dans des environnements multitâches dynamiques, même avec peu de données. Contexte et défis : Les réseaux sociaux comme Xiaohongshu sont devenus des plateformes essentielles d’échange d’informations, mais l’application de l’apprentissage par renforcement (LLM) au sein de ces plateformes se heurte à des défis spécifiques : des charges de travail hétérogènes (modération de contenu en temps réel, recommandations personnalisées, assistance aux créateurs, etc.), l’évolution rapide des normes et de l’argot en ligne, et les biais de distribution liés aux corpus multilingues et multiculturels. Ces facteurs peuvent facilement entraîner des échecs de généralisation du modèle, des biais dans l’application des politiques ou une amnésie catastrophique. Si l’apprentissage par renforcement traditionnel (SFT) peut améliorer les performances sur des tâches spécifiques, il crée souvent un « effet de balancier » : les gains observés dans le domaine s’accompagnent d’une robustesse moindre en dehors, notamment pour les modèles à faible nombre de paramètres. RedOne 2.0 remédie à ces problèmes en concevant un paradigme d’apprentissage par renforcement progressif permettant une adaptation rapide et stable tout en évitant le surapprentissage. Méthodologie principale : L’innovation majeure de l’article sur le pipeline RL-first en trois étapes réside dans un cadre de post-entraînement progressif basé sur un jeu de données D soigneusement sélectionné (comprenant le corpus spécifique aux réseaux sociaux D_SNS, couvrant plus de 75 tâches telles que la classification et la traduction, combiné au corpus général D_GEN). Ce cadre se compose de trois étapes complémentaires, assurant une boucle fermée de l’alignement initial à l’ajustement fin : 1. Apprentissage exploratoire : Un alignement initial est réalisé à l’aide d’environ 750 000 points de données SNS (comprenant 75 tâches) et de 50 000 points de données généraux (avec chaînes d’inférence). Des fonctions de récompense spécifiques à chaque tâche (par exemple, correspondance exacte pour les tâches fermées, métriques d’évaluation pour les tâches ouvertes) sont utilisées pour diagnostiquer les faiblesses du modèle. Une stratégie d’optimisation DAPO (un algorithme d’apprentissage par renforcement efficace) est employée pour identifier les exemples à forte valeur ajoutée et réaliser une adaptation initiale. 2. Optimisation ciblée : Afin de corriger les faiblesses mises en évidence lors de la phase 1, un ensemble de données hybride de 18 000 échantillons a été constitué (principalement des données SNS issues d’échantillons non valides et des données générales avec des étiquettes souples). La fonction de perte SFT a été appliquée, combinant des exemples négatifs stricts et une régularisation souple pour combler les lacunes tout en évitant l’oubli. La conception a privilégié l’échantillonnage dynamique pour limiter le risque de surapprentissage inhérent à la SFT pure. 3. Apprentissage de raffinement : Le processus se termine avec environ 400 000 jeux de données mixtes (réseaux sociaux/généraux, dont 57 % incluent l’inférence), suivis d’une seconde application de DAPO RL pour consolider, améliorer et équilibrer les performances multitâches. L’ensemble du pipeline privilégie l’apprentissage par renforcement afin de garantir une convergence efficace, même pour les petits modèles (par exemple, 4 milliards de paramètres) (moins de 500 étapes d’entraînement, taux d’apprentissage de 5e-6). Résultats expérimentaux et validation : Les expériences ont utilisé Qwen3-4B comme modèle de base et évalué les résultats sur trois bancs d’essai : un banc d’essai général (incluant les connaissances, les mathématiques et le code, tels que MMLU et GSM8K) ; un banc d’essai spécifique aux réseaux sociaux (SNS-Bench, couvrant huit tâches telles que la reconnaissance d’entités nommées et la génération de requêtes) ; et un banc d’essai de traduction pour les réseaux sociaux (SNS-TransBench, traduction anglais-chinois, utilisant les métriques BLEU/chrF++). Les résultats montrent que : RedOne 2.0-4B a obtenu un score moyen de 70,80 sur les tâches générales, 67,57 sur les tâches SNS et 47,67 sur la traduction, surpassant les lignes de base de taille similaire (telles que RedOne-7B, avec une amélioration de 6,97 points) et rivalisant avec des modèles plus grands (tels que la variante 30B) (avec une amélioration globale de 4,37 points). Les expériences d'ablation confirment que les contributions à chaque étape augmentent progressivement : l'apprentissage exploratoire améliore la performance de référence du SNS de 9,29 points ; le réglage fin ciblé ajoute 2,42 points ; et l'apprentissage affiné consolide la contribution de 1,90 point. Par rapport à la performance de référence SFT+RL pure, le cadre obtient un gain de 1,00 point sur les tâches générales et de 4,54 points sur le SNS. • Des tests A/B en ligne (portant sur 3 millions d'utilisateurs) ont validé sa valeur concrète : lors de la reconstruction personnalisée des titres, le modèle a amélioré la valeur des annonces de 0,43 %, réduit les titres vagues de 11,9 % et amélioré les indicateurs de qualité de 7,1 % à 25,8 %. Des études de cas présentent des résultats plus convaincants, mais certains éléments ont parfois été omis. Principales contributions et importance 1. Un banc d'essai pour LLM dans le domaine des réseaux sociaux a été construit, atteignant des performances de pointe en utilisant moins de données et un modèle plus petit. 2. Un paradigme par phases privilégiant l'apprentissage par renforcement (RL) est proposé pour atténuer l'effet de bascule de l'analyse des forces structurelles (SFT) et promouvoir une amélioration constante. 3. De nombreuses études empiriques démontrent sa robustesse face aux changements de distribution et son potentiel de déploiement pratique. D'un point de vue plus large, cette recherche propose un changement de paradigme pour la formation post-LLM dans les domaines dynamiques (tels que les réseaux sociaux) : en mettant l'accent sur le rôle de guide de l'apprentissage par renforcement, on peut réduire les coûts de calcul (adapté aux petites et moyennes équipes) et améliorer la transférabilité du modèle à des tâches hétérogènes. Parmi les limitations, on note un risque de sur-optimisation (par exemple, privilégier l'attractivité au détriment de la véracité), et des recherches futures pourraient renforcer le mécanisme de fidélité. Adresse du document :
Chargement du thread
Récupération des tweets originaux depuis X pour offrir une lecture épurée.
Cela ne prend généralement que quelques secondes.
