正在載入線程內容
正在從 X 取得原始推文,整理成清爽的閱讀畫面。
通常只需幾秒鐘,請稍候。
共 2 則推文 · 2025年11月7日 下午4:47
SAIL-RL 透過雙獎勵強化學習調優引導多層邏輯模型何時以及如何思考
與作者討論:https://t.co/hSUtZgz29t