Eu realmente não entendo como o trabalho do Beff vai acelerar o treinamento de modelos. Sim, ok, amostragem muito barata de ruído termodinâmico. Como isso nos ajuda a treinar um EBM para aproximar a variedade de dados real? Ajuda mesmo, ou é apenas um truque de inferência? Os detalhes do artigo estão além da minha compreensão.
Carregando detalhes do thread
Buscando os tweets originais no X para montar uma leitura limpa.
Isso normalmente leva apenas alguns segundos.
