正在加载线程详情
正在从 X 获取原始推文,整理成清爽的阅读视图。
通常只需几秒钟,请稍候。
共 1 条推文 · 2025年10月31日 06:05
训练集和推理集之间几乎不存在 KL 不匹配,这将极大地改善结果。 我们很可能也可以适当降低KL正则化强度。不过,*PO的选择无关紧要这个结果很有意思,我认为它仍然会对尾部产生影响。