Escrevi exatamente sobre isso há algum tempo. Na minha opinião, já estava óbvopen.substack.com/pub/doxa/p/why…s://t.co/SIe1Fewlx6
Uma pessoa inteligente me fez uma analogia excelente que eu disse que ia usar, então aqui está: usar aprendizado por reforço (RL) em um modelo para realizar uma tarefa específica (de referência) é como encontrar um composto químico com um efeito medicinal específico. Ele pode funcionar ou não para outras tarefas, mesmo que não relacionadas — você só descobre para que mais ele serve (ou quais são os efeitos colaterais) experimentando.