(顯然,標量獎勵和二元獎勵等方法應該保留,以應對阻力較小的路徑;但對於真實用戶來說,他們會給出討厭某個回复的具體原因——模型需要理解他們討厭某個回复的原因,而不僅僅是點讚或踩,並通過大量樣本進行學習)。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年11月28日 清晨7:09
(顯然,標量獎勵和二元獎勵等方法應該保留,以應對阻力較小的路徑;但對於真實用戶來說,他們會給出討厭某個回复的具體原因——模型需要理解他們討厭某個回复的原因,而不僅僅是點讚或踩,並通過大量樣本進行學習)。