Uma pessoa inteligente me fez uma analogia excelente que eu disse que ia usar, então aqui está: usar aprendizado por reforço (RL) em um modelo para realizar uma tarefa específica (de referência) é como encontrar um composto químico com um efeito medicinal específico. Ele pode funcionar ou não para outras tarefas, mesmo que não relacionadas — você só descobre para que mais ele serve (ou quais são os efeitos colaterais) experimentando.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.