X (Twitter)

Xiaohongshu lanza RedOne 2.0: un marco de aprendizaje por refuerzo progresivo con entrenamiento previo para servicios de redes sociales (SNS) como Xiaohongshu. Logra una adaptación eficiente y robusta de pequeños modelos de aprendizaje automático (LLM) en entornos multitarea dinámicos con menos datos mediante un proceso de tres etapas: aprendizaje exploratorio, ajuste fino específico y refinamiento del aprendizaje. Antecedentes y desafíos: Los servicios de redes sociales como Xiaohongshu se han convertido en plataformas esenciales para el intercambio de información, pero la aplicación de la metodología de aprendizaje por refuerzo (LLM) en ellas se enfrenta a desafíos únicos: cargas de trabajo heterogéneas (por ejemplo, moderación de contenido en tiempo real, diálogos de recomendaciones personalizadas y asistencia a creadores), normas y jerga en línea en rápida evolución, y sesgos distributivos causados por corpus multilingües y multiculturales. Estos factores pueden provocar fácilmente fallos en la generalización del modelo, sesgos en la implementación de políticas o amnesia catastrófica. Si bien la teoría de sistemas funcional (SFT) tradicional puede mejorar el rendimiento en tareas específicas, a menudo crea un efecto de balancín: las mejoras dentro del dominio se ven acompañadas de una menor robustez fuera de él, especialmente en modelos con parámetros más pequeños. RedOne 2.0 aborda estos problemas mediante el diseño de un paradigma de aprendizaje por refuerzo (RL) por fases para lograr una adaptación rápida y estable, evitando el sobreajuste. Metodología principal: La principal innovación del artículo sobre el pipeline de aprendizaje por refuerzo (RL) en tres etapas reside en un marco de post-entrenamiento progresivo basado en un conjunto de datos cuidadosamente seleccionado D (que incluye el corpus específico de redes sociales D_SNS, que abarca más de 75 tareas como clasificación y traducción, combinado con el corpus general D_GEN). El marco consta de tres etapas complementarias, lo que garantiza un ciclo cerrado desde la alineación inicial hasta el ajuste fino: 1. Aprendizaje exploratorio: La alineación inicial se realiza utilizando aproximadamente 750 000 puntos de datos de redes sociales (que contienen 75 tareas) y 50 000 puntos de datos generales (con cadenas de inferencia). Se utilizan funciones de recompensa específicas para cada tarea (p. ej., coincidencia exacta para tareas cerradas, métricas de evaluación para tareas abiertas) para diagnosticar las debilidades del modelo. Se emplea una estrategia de optimización DAPO (un algoritmo de aprendizaje por refuerzo eficiente) para identificar muestras de alto valor y lograr la adaptación inicial. 2. Ajuste fino específico: Para abordar las deficiencias detectadas en la Fase 1, se construyó un conjunto de datos híbrido de 18 000 muestras (principalmente datos de redes sociales de muestras fallidas + datos generales con etiquetas suaves). Se aplicó la función de pérdida SFT, que combina muestras negativas difíciles y regularización suave para corregir las lagunas y evitar el olvido. El diseño priorizó el muestreo dinámico para evitar el riesgo de sobreajuste propio de SFT puro. 3. Aprendizaje de refinamiento: El proceso concluye con aproximadamente 400 000 conjuntos de datos mixtos de redes sociales y generales (57 % incluye inferencia), seguido de una segunda aplicación de DAPO RL para consolidar, mejorar y equilibrar el rendimiento multitarea. Todo el flujo de trabajo prioriza el aprendizaje por refuerzo para garantizar una convergencia eficiente incluso para modelos pequeños (p. ej., 4000 millones de parámetros) (pasos de entrenamiento inferiores a 500, tasa de aprendizaje de 5e-6). Resultados experimentales y validación: Los experimentos utilizaron Qwen3-4B como modelo base y evaluaron los resultados en tres conjuntos de datos de referencia: un conjunto general (que incluye conocimiento, matemáticas y código, como MMLU y GSM8K); un conjunto específico para redes sociales (SNS-Bench, que abarca ocho tareas, como el reconocimiento de entidades nombradas y la generación de consultas); y un conjunto de datos para la traducción de redes sociales (SNS-TransBench, traducción inglés-chino, utilizando las métricas BLEU/chrF++). Los resultados muestran que: RedOne 2.0-4B logró una puntuación media de 70,80 en tareas generales, 67,57 en tareas de redes sociales y 47,67 en traducción, superando a las líneas de base de tamaño similar (como RedOne-7B, con una mejora de 6,97 puntos) y compitiendo con modelos más grandes (como la variante 30B) (con una mejora general de 4,37 puntos). Los experimentos de ablación confirman que las contribuciones en cada etapa aumentan progresivamente: el aprendizaje exploratorio mejora la línea base de SNS en 9,29 puntos; el ajuste fino dirigido añade otros 2,42 puntos; y el aprendizaje refinado consolida la contribución en 1,90 puntos. En comparación con la línea base SFT+RL pura, el marco logra 1,00 punto más en tareas generales y 4,54 puntos más en SNS. Las pruebas A/B en línea (con 3 millones de usuarios) validaron su utilidad en el mundo real: en la tarea de reconstrucción de títulos personalizados, el modelo mejoró el valor de los anuncios en un 0,43 %, redujo los títulos vagos en un 11,9 % y mejoró las métricas de calidad entre un 7,1 % y un 25,8 %. Los estudios de caso muestran resultados más atractivos, pero en ocasiones se omitieron algunos datos. Principales contribuciones e importancia 1. Se construyó un punto de referencia para LLM en el dominio SNS, logrando un rendimiento de vanguardia utilizando menos datos y un modelo más pequeño. 2. Se propone un paradigma por fases que prioriza el aprendizaje por refuerzo (RL) para mitigar el efecto de balancín del análisis de fuerza estructural (SFT) y promover una mejora consistente. 3. Numerosos estudios empíricos demuestran su robustez ante cambios en la distribución y su potencial de implementación práctica. Desde una perspectiva más amplia, esta investigación propone un cambio de paradigma para el entrenamiento post-LLM en dominios dinámicos (como las redes sociales): enfatizar el papel guía del aprendizaje por refuerzo puede reducir los costes computacionales (lo que resulta adecuado para equipos pequeños y medianos) y mejorar la transferibilidad del modelo a tareas heterogéneas. Entre sus limitaciones se incluye la posible sobreoptimización (como priorizar el atractivo sobre la veracidad), y futuras investigaciones podrían fortalecer aún más el mecanismo de fidelidad. Dirección postal:

Hilo de meng shao (@shao__meng)

Información del autor

Contenido del hilo