Jon Stokes (@jon_stokes): I wrote about exactly this a while back. It has been obvious for a wh…

Escrevi exatamente sobre isso há algum tempo. Na minha opinião, já estava óbvopen.substack.com/pub/doxa/p/why…s://t.co/SIe1Fewlx6

Uma pessoa inteligente me fez uma analogia excelente que eu disse que ia usar, então aqui está: usar aprendizado por reforço (RL) em um modelo para realizar uma tarefa específica (de referência) é como encontrar um composto químico com um efeito medicinal específico. Ele pode funcionar ou não para outras tarefas, mesmo que não relacionadas — você só descobre para que mais ele serve (ou quais são os efeitos colaterais) experimentando.

Thread de Jon Stokes (@jon_stokes)

Informações do autor

Conteúdo da thread