Uma discrepância mínima no nível de Kullback-Leibler (kl) entre o treinamento e a inferência melhoraria drasticamente os resultados. Muito provavelmente, podemos relaxar um pouco na regularização de Kullback-Leibler. O resultado de a escolha de *PO não importar é curioso, e acho que ainda teria um impacto nas caudas da distribuição.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.