成本因素无疑是其中一个重要考量因素。 另一个原因是,所有数据都会大规模处理,我们不应该在预训练阶段过度拟合可能存在噪声且质量可能较低的数据。*过度拟合近期数据 最后,当您决定尽量减少 KLD 时,您会如何设定这些界限? 如果只是暂时决定,那就不是最佳选择。 如果基于抽象概念来做决定,就会遇到与 BLT 或 LCM 相同的挑战。