正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年10月31日 清晨6:05
訓練集和推理集之間幾乎不存在 KL 不匹配,這將極大地改善結果。 我們很可能也可以適當地降低KL正規化強度。不過,*PO的選擇無關緊要這個結果很有意思,我認為它仍然會對尾部產生影響。