X (Twitter)

5/5 O que é RL assíncrono usado no treinamento de modelos do Customer Composer? Ele utiliza execução assíncrona em múltiplos níveis para evitar a espera por operações lentas, como por exemplo, uma geração de implantação demorada. Como você sabe, para um determinado problema, em aprendizado por reforço como o GRPO, geramos múltiplas trajetórias. No entanto, algumas trajetórias podem demorar muito para serem concluídas. Assim que tiverem trajetórias suficientes, eles executam o treinamento. Amostras/implementações parciais são retomadas posteriormente com o modelo atualizado. Isso causa uma situação em que alguns tokens são gerados pelo modelo/política antigo e outros pelo novo. No entanto, isso é aceitável. Se você quiser entender mais sobre Async RL, leia APRIL - um projeto para Async RL.

Thread de GDP (@bookwormengr)

Informações do autor

Conteúdo da thread