Xiaohongshu lança o RedOne 2.0: uma estrutura progressiva de aprendizado por reforço com treinamento prévio para serviços de redes sociais (SNS), como o Xiaohongshu. Ela alcança uma adaptação eficiente e robusta de pequenos modelos de aprendizado de máquina (LLMs) em ambientes dinâmicos de multitarefa com menos dados, por meio de um pipeline de três estágios: aprendizado exploratório, ajuste fino direcionado e refinamento do aprendizado. Contexto e Desafios: Serviços de redes sociais como o Xiaohongshu tornaram-se plataformas essenciais para a troca de informações, mas a aplicação de Modelos de Aprendizagem Baseados em Liderança (LLM) nesses serviços enfrenta desafios únicos: cargas de trabalho heterogêneas (por exemplo, moderação de conteúdo em tempo real, diálogos de recomendação personalizados e assistência a criadores), normas e gírias online em rápida evolução e vieses distribucionais causados por corpora multilíngues e multiculturais. Esses fatores podem facilmente levar à falha na generalização do modelo, viés na implementação de políticas ou amnésia catastrófica. Embora a Aprendizagem Baseada em Forças (SFT) tradicional possa melhorar o desempenho em tarefas específicas, ela frequentemente cria um "efeito gangorra" — os ganhos dentro do domínio são acompanhados por uma menor robustez fora dele, especialmente em modelos com tamanhos de parâmetros menores. O RedOne 2.0 aborda esses problemas projetando um paradigma de Aprendizagem por Reforço (RL) em fases para alcançar uma adaptação rápida e estável, evitando o sobreajuste. Metodologia principal: A principal inovação do pipeline de aprendizado por reforço (RL) em três estágios reside em uma estrutura progressiva de pós-treinamento baseada em um conjunto de dados cuidadosamente selecionado (D) (incluindo o corpus específico para redes sociais D_SNS, abrangendo mais de 75 tarefas, como classificação e tradução, combinado com o corpus geral D_GEN). A estrutura consiste em três estágios complementares, garantindo um ciclo fechado desde o alinhamento inicial até o ajuste fino: 1. Aprendizado Exploratório: O alinhamento inicial é realizado utilizando aproximadamente 750.000 pontos de dados do SNS (contendo 75 tarefas) e 50.000 pontos de dados gerais (com cadeias de inferência). Funções de recompensa específicas para cada tarefa (por exemplo, correspondência exata para tarefas fechadas, métricas de avaliação para tarefas abertas) são utilizadas para diagnosticar as fragilidades do modelo. Uma estratégia de otimização DAPO (um algoritmo de RL eficiente) é empregada para identificar amostras de alto valor e alcançar a adaptação inicial. 2. Ajuste Fino Direcionado: Para corrigir as fragilidades expostas na Fase 1, foi construído um conjunto de dados híbrido com 18.000 amostras (principalmente dados SNS de amostras com falha + dados gerais com rótulos flexíveis). A função de perda SFT foi aplicada, combinando amostras negativas rígidas e regularização flexível para corrigir lacunas e evitar o esquecimento. O projeto priorizou a amostragem dinâmica para evitar o risco de sobreajuste do SFT puro. 3. Aprendizado por Refinamento: O processo conclui com aproximadamente 400.000 conjuntos de dados mistos SNS/gerais (57% incluindo inferência), seguido por uma segunda aplicação do DAPO RL para consolidar, aprimorar e equilibrar o desempenho multitarefa. Todo o pipeline prioriza o RL para garantir uma convergência eficiente mesmo para modelos pequenos (por exemplo, 4 bilhões de parâmetros) (etapas de treinamento mantidas abaixo de 500, taxa de aprendizado de 5e-6). Resultados Experimentais e Validação: Os experimentos utilizaram o modelo base Qwen3-4B e avaliaram os resultados em três benchmarks: um benchmark geral (incluindo conhecimento, matemática e código, como MMLU e GSM8K); um benchmark específico para redes sociais (SNS-Bench, abrangendo oito tarefas como reconhecimento de entidades nomeadas e geração de consultas); e um benchmark de tradução para redes sociais (SNS-TransBench, tradução inglês-chinês, utilizando as métricas BLEU/chrF++). Os resultados mostram que: O RedOne 2.0-4B alcançou uma pontuação média de 70,80 em tarefas gerais, 67,57 em tarefas de redes sociais e 47,67 em tradução, superando modelos de referência de tamanho semelhante (como o RedOne-7B, com uma melhoria de 6,97 pontos) e competindo com modelos maiores (como a variante 30B) (com uma melhoria geral de 4,37 pontos). • Experimentos de ablação confirmam que as contribuições em cada estágio aumentam progressivamente: o aprendizado exploratório melhora a linha de base do SNS em 9,29 pontos; o ajuste fino direcionado adiciona outros 2,42 pontos; e o aprendizado refinado consolida a contribuição em 1,90 pontos. Comparado à linha de base pura SFT+RL, a estrutura alcança 1,00 ponto a mais em tarefas gerais e 4,54 pontos a mais no SNS. • Os testes A/B online (abrangendo 3 milhões de usuários) validaram seu valor no mundo real: na tarefa de reconstrução de títulos personalizados, o modelo melhorou o valor dos anúncios em 0,43%, reduziu títulos vagos em 11,9% e melhorou as métricas de qualidade em 7,1% a 25,8%. Estudos de caso mostram resultados mais atraentes, mas alguns dados foram ocasionalmente omitidos. Principais contribuições e importância 1. Foi construído um benchmark para LLM no domínio SNS, alcançando desempenho de última geração usando menos dados e um modelo menor. 2. Propõe-se um paradigma faseado que prioriza a aprendizagem por reforço (RL) para mitigar o efeito gangorra da análise de força estrutural (SFT) e promover uma melhoria consistente. 3. Estudos empíricos extensivos demonstram sua robustez em relação a mudanças na distribuição e seu potencial de implantação prática. De uma perspectiva mais ampla, esta pesquisa oferece uma mudança de paradigma para o treinamento pós-LLM em domínios dinâmicos (como serviços de redes sociais): enfatizar o papel orientador do RL pode reduzir os custos computacionais (adequado para equipes de pequeno a médio porte) e aprimorar a transferibilidade do modelo entre tarefas heterogêneas. As limitações incluem a potencial superotimização (como priorizar a atratividade em detrimento da factualidade), e pesquisas futuras poderiam fortalecer ainda mais o mecanismo de fidelidade. Endereço do documento:
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
