我希望在使用 grpo 進行標量獎勵或信用分配時,能獲得更多關於 1 位元訊號的資訊(我的直覺是它有所不同)。 一些關於新型強化學習(RL)的研究,針對的並非qwen模型,因為即使對正向結果的懲罰力道也很大。 (仔細想想,這些話其實和引用的推文有點關係不大)
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 1 則推文 · 2025年12月1日 下午1:59
我希望在使用 grpo 進行標量獎勵或信用分配時,能獲得更多關於 1 位元訊號的資訊(我的直覺是它有所不同)。 一些關於新型強化學習(RL)的研究,針對的並非qwen模型,因為即使對正向結果的懲罰力道也很大。 (仔細想想,這些話其實和引用的推文有點關係不大)