#6 - Sua estrutura de RL eficiente secretamente lhe proporciona treinamento em RL fora da política fengyao.notion.site/off-policy-rl#…Loq5UwZQ Um blog muito bom sobre como entender a discrepância entre treinamento e inferência e como isso afeta os resultados. “Sua infraestrutura está apresentando problemas matemáticos. Veja por quê, o quão ruim é e como corrigi-lo com amostragem por importância.”
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
