slop本質上是指最大化獎勵與困惑度比率的內容。從機制上講,這是一種透過將輸出分佈壓縮到一個包含少數帕累托最優模式的範圍內來獲取獎勵的手段,本質上是建立專門針對此訓練設定的退化語法。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月22日 晚上10:35
slop本質上是指最大化獎勵與困惑度比率的內容。從機制上講,這是一種透過將輸出分佈壓縮到一個包含少數帕累托最優模式的範圍內來獲取獎勵的手段,本質上是建立專門針對此訓練設定的退化語法。