O custo é definitivamente um dos fatores. Outro ponto é que tudo é processado em grande escala e não devemos sobreajustar os dados no pré-treinamento, que pode ser ruidoso e possivelmente de qualidade inferior.
*sobreajuste aos dados recentes Por fim, como você criaria esses limites onde decide minimizar o KLD? Se a decisão for tomada em função do tempo, é uma opção subótima. Se a decisão for baseada em ideias abstratas, ela enfrentará os mesmos desafios que a BLT ou a LCM.